数据类型

数组类型和类型之间的转换

Numpy支持比Python更多种类的数值类型。此部分显示了哪些可用的,以及如何修改数组的数据类型。

数据类型 描述
bool_ 布尔(True或False),存储为一个字节
int_ 默认整数类型(与C long相同;通常为int64int32
intc 与C int(通常为int32int64)相同
intp 用于索引的整数(与C ssize_t相同;通常为int32int64
int8 字节(-128到127)
int16 整数(-32768到32767)
int32 整数(-2147483648至2147483647)
int64 整数(-9223372036854775808至9223372036854775807)
uint8 无符号整数(0到255)
uint16 无符号整数(0到65535)
uint32 无符号整数(0至4294967295)
uint64 无符号整数(0至18446744073709551615)
float_ float64的简写。
float16 半精度浮点:符号位,5位指数,10位尾数
float32 单精度浮点:符号位,8位指数,23位尾数
float64 双精度浮点:符号位,11位指数,52位尾数
complex_ complex128的简写。
complex64 复数,由两个32位浮点(实数和虚数分量)
complex128 复数,由两个64位浮点(实数和虚数分量)

除了intc,定义了平台相关的C整数类型shortlonglonglong

Numpy数值类型是dtype(data-type)对象的实例,每个类型具有唯一的特征。在你使用下面的语句导入NumPy后

>>> import numpy as np

这些类型可以用np.bool_np.float32等方式访问。

未在上表中列出的高级类型,请参见结构化数组部分。

有5个基本数字类型表示布尔(bool)、整数(int)、无符号整数(uint)、浮点数(float)和复数。那些在其名称中具有数字的类型表示类型的位的大小(即,需要多少位来表示存储器中的单个值)。某些类型,例如intintp,根据平台(例如32位与64位机器)具有不同的位大小。当与存储器直接寻址的低级代码(例如C或Fortran)接口时,应该考虑这一点。

数据类型可以用作函数将python数字转换为数组标量(有关说明,请参阅数组标量部分)、将python数字序列转换为该类型的数组、或作为许多numpy函数或方法接受的dtype关键字参数。一些例子:

>>> import numpy as np
>>> x = np.float32(1.0)
>>> x
1.0
>>> y = np.int_([1,2,4])
>>> y
array([1, 2, 4])
>>> z = np.arange(3, dtype=np.uint8)
>>> z
array([0, 1, 2], dtype=uint8)

数组类型也可以通过字符代码来引用,主要是为了保持与较旧包(例如Numeric)的向后兼容性。一些文档可能仍然引用这些,例如:

>>> np.array([1, 2, 3], dtype='f')
array([ 1.,  2.,  3.], dtype=float32)

我们建议使用dtype对象。

要转换数组的类型,请使用.astype()方法(首选)或类型本身作为函数。例如:

>>> z.astype(float)                 
array([  0.,  1.,  2.])
>>> np.int8(z)
array([0, 1, 2], dtype=int8)

注意,上面,我们使用Python float对象作为dtype。NumPy 知道int指代np.int_bool表示np.bool_floatnp.float_以及complexnp.complex_其他数据类型没有Python等效的类型。

要确定数组的类型,请查看dtype属性:

>>> z.dtype
dtype('uint8')

dtype对象还包含有关类型的信息,例如其位宽和字节顺序。数据类型也可以间接用于查询类型的属性,例如是否是整数:

>>> d = np.dtype(int)
>>> d
dtype('int32')

>>> np.issubdtype(d, int)
True

>>> np.issubdtype(d, float)
False

数组标量

Numpy通常将数组的元素返回为数组标量(具有关联dtype的标量)。数组标量与Python标量不同,但在大多数情况下,它们可以互换使用(主要例外是早于v2.x的Python版本,其中整数数组标量不能用作列表和元组的索引)。有一些例外,例如当代码需要标量的非常特定的属性,或者当它特别检查一个值是否是一个Python标量。通常,使用相应的Python类型函数(例如intfloatcomplexstrunicode)将数组标量显式转换为Python标量就很容易解决问题。

使用数组标量的主要优点是它们保留数组类型(Python可能没有可用的匹配标量类型,例如int16)。因此,使用数组标量确保数组和标量之间的行为相同,而不管值是否在数组内。NumPy标量也有很多和数组相同的方法。

扩展精度

Python的浮点数通常是64位浮点数,几乎等效于np.float64在某些不常见的情况下,使用Python的浮点数更精确。这在numpy是否可能取决于硬件和开发环境:具体来说,x86机器提供80位精度的硬件浮点数,大多数C编译器提供它为long double类型,MSVC(Windows版本的标准)让long doubledouble(64位)完全一样。Numpy使编译器的long doublenp.longdouble(复数为np.clongdouble)。你可以用np.finfo(np.longdouble)找出你的numpy提供的是什么。

Numpy 不提供比 C long double 更高精度的数据类型,特别地 128 位的IEEE quad precision 数据类型(FORTRAN的 REAL*16) 不可用。

为了有效地进行内存对齐,np.longdouble通常用零位填充,无论是96位还是128位。哪个更高效取决于硬件和开发环境;通常在32位系统上,它们被填充为96位,而在64位系统上,它们通常被填充为128位。np.longdouble被填充到系统默认值;为需要特定填充的用户提供np.float96np.float128尽管有名称,np.float96np.float128只提供与np.longdouble一样多的精度,即80位大多数x86机器和64位标准Windows构建。

请注意,即使np.longdouble提供比python float更多的精度,也很容易失去额外的精度,因为python通常强制值通过float传递值。例如,%格式化操作符需要将其参数转换为标准python类型,因此即使请求了多个小数位,也不可能保留扩展精度。使用值1 + np.finfo(np.longdouble).eps测试你的代码非常有用。