小姐姐学Python-数据分析-Numpy数值计算基础2

前言

数组堆叠

在 NumPy 中,以下方法可用于数组的堆叠:

  • stack(arrays,axis):沿着新轴连接数组的序列。
  • column_stack():将 1 维数组作为列堆叠到 2 维数组中。
  • hstack():按水平方向堆叠数组。
  • vstack():按垂直方向堆叠数组。
  • dstack():按深度方向堆叠数组。
    这里以 stack(arrays,axis) 方法举例:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.stack((a, b))

当然,也可以横着堆叠。

np.stack((a, b), axis=-1)

拆分

split 及与之相似的一系列方法主要是用于数组的拆分,列举如下:

  • split(ary,indices_or_sections,axis):将数组拆分为多个子数组。
  • hsplit(ary,indices_or_sections):按水平方向将数组拆分成多个子数组。
  • vsplit(ary,indices_or_sections):按垂直方向将数组拆分成多个子数组。
  • dsplit(ary,indices_or_sections):按深度方向将数组拆分成多个子数组。

下面,我们看一看 split 到底有什么效果:

a = np.arange(10)
np.split(a, 5)

除了 1 维数组,更高维度也是可以直接拆分的。例如,我们可以将下面的数组按行拆分为 2。

a = np.arange(10).reshape(2, 5)
np.split(a, 2)

NumPy 中还有针对数组元素添加或移除的一些方法。

删除

首先是 delete 删除:

  • delete(arr,obj,axis) :沿特定轴删除数组中的子数组。
a = np.arange(12).reshape(3, 4)
np.delete(a, 2, 1)

这里代表沿着横轴,将第 3 列(索引 2)删除。当然,你也可以沿着纵轴,将第三行删除。

np.delete(a, 2, 0)

数组插入

再看一看 insert插入,用法和 delete 很相似,只是需要在第三个参数位置设置需要插入的数组对象:

  • insert(arr,obj,values,axis):依据索引在特定轴之前插入值。
# 最好自己先打印出a,b查看维度后,再insert
a = np.arange(12).reshape(3, 4)
b = np.arange(4)

np.insert(a, 2, b, 0)

附加

append 的用法也非常简单。只需要设置好需要附加的值和轴位置就好了。它其实相当于只能在末尾插入的 insert,所以少了一个指定索引的参数。

  • append(arr,values,axis):将值附加到数组的末尾,并返回 1 维数组。
a = np.arange(6).reshape(2, 3)
b = np.arange(3)

np.append(a, b)

注意 append方法返回值,默认是展平状态下的 1 维数组。

重设尺寸

resize 就很好理解了,直接举例子吧:

  • resize(a,new_shape):对数组尺寸进行重新设定。
a = np.arange(10)
a.resize(2, 5)
a

你可能会纳闷了,这个 resize 看起来和上面的 reshape 一样呢,都是改变数组原有的形状。

其实,它们是有区别的,区别在于对原数组的影响。reshape 在改变形状时,不会影响原数组,相当于对原数组做了一份拷贝。而 resize 则是对原数组执行操作。

翻转数组

在 NumPy 中,我们还可以对数组进行翻转操作:

  • fliplr(m):左右翻转数组。
  • flipud(m):上下翻转数组。
a = np.arange(16).reshape(4, 4)
print(np.fliplr(a))
print(np.flipud(a))

NumPy 随机数

NumPy 的随机数功能非常强大,主要由 numpy.random 模块完成。

首先,我们需要了解如何使用 NumPy 也就是生成一些满足基本需求的随机数据。主要由以下一些方法完成:

numpy.random.rand(d0, d1, …, dn) 方法的作用为:指定一个数组,并使用 [0, 1) 区间随机数据填充,这些数据均匀分布。

np.random.rand(2,5)

numpy.random.randn(d0, d1, …, dn) 与 numpy.random.rand(d0, d1, …, dn) 的区别在于,前者是从标准正态分布中返回一个或多个样本值。

np.random.randn(1,10)

randint(low, high, size, dtype) 方法将会生成 [low, high) 的随机整数。注意这是一个半开半闭区间。

np.random.randint(2,5,10)

random_sample(size) 方法将会在 [0, 1) 区间内生成指定 size 的随机浮点数。

np.random.random_sample([4,2])
np.random.random_sample(10)

与 numpy.random.random_sample 类似的方法还有:

  • numpy.random.random([size])
  • numpy.random.ranf([size])
  • numpy.random.sample([size])
    它们 4 个的效果都差不多。

choice(a, size, replace, p) 方法将会给定的数组里随机抽取几个值,该方法类似于随机抽样。

np.random.choice(10,5) # 10可以换成1维的数组

概率密度分布

除了上面介绍的 6 种随机数生成方法,NumPy 还提供了大量的满足特定概率密度分布的样本生成方法。它们的使用方法和上面非常相似,这里就不再一一介绍了。列举如下:

  • numpy.random.beta(a,b,size):从 Beta 分布中生成随机数。
  • numpy.random.binomial(n, p, size):从二项分布中生成随机数。
  • numpy.random.chisquare(df,size):从卡方分布中生成随机数。
  • numpy.random.dirichlet(alpha,size):从 Dirichlet 分布中生成随机数。
  • numpy.random.exponential(scale,size):从指数分布中生成随机数。
  • numpy.random.f(dfnum,dfden,size):从 F 分布中生成随机数。
  • numpy.random.gamma(shape,scale,size):从 Gamma 分布中生成随机数。
  • numpy.random.geometric(p,size):从几何分布中生成随机数。
  • numpy.random.gumbel(loc,scale,size):从 Gumbel 分布中生成随机数。
  • numpy.random.hypergeometric(ngood, nbad, nsample, size):从超几何分布中生成随机数。
  • numpy.random.laplace(loc,scale,size):从拉普拉斯双指数分布中生成随机数。
  • numpy.random.logistic(loc,scale,size):从逻辑分布中生成随机数。
  • numpy.random.lognormal(mean,sigma,size):从对数正态分布中生成随机数。
  • numpy.random.logseries(p,size):从对数系列分布中生成随机数。
  • numpy.random.multinomial(n,pvals,size):从多项分布中生成随机数。
  • numpy.random.multivariate_normal(mean, cov, size):从多变量正态分布绘制随机样本。
  • numpy.random.negative_binomial(n, p, size):从负二项分布中生成随机数。
  • numpy.random.noncentral_chisquare(df,nonc,size):从非中心卡方分布中生成随机数。
  • numpy.random.noncentral_f(dfnum, dfden, nonc, size):从非中心 F 分布中抽取样本。
  • numpy.random.normal(loc,scale,size):从正态分布绘制随机样本。
  • numpy.random.pareto(a,size):从具有指定形状的 Pareto II 或 Lomax 分布中生成随机数。
  • numpy.random.poisson(lam,size):从泊松分布中生成随机数。
  • numpy.random.power(a,size):从具有正指数 a-1 的功率分布中在 0,1 中生成随机数。
  • numpy.random.rayleigh(scale,size):从瑞利分布中生成随机数。
  • numpy.random.standard_cauchy(size):从标准 Cauchy 分布中生成随机数。
  • numpy.random.standard_exponential(size):从标准指数分布中生成随机数。
  • numpy.random.standard_gamma(shape,size):从标准 Gamma 分布中生成随机数。
  • numpy.random.standard_normal(size):从标准正态分布中生成随机数。
  • numpy.random.standard_t(df,size):从具有 df 自由度的标准学生 t 分布中生成随机数。
  • numpy.random.triangular(left,mode,right,size):从三角分布中生成随机数。
  • numpy.random.uniform(low,high,size):从均匀分布中生成随机数。
  • numpy.random.vonmises(mu,kappa,size):从 von Mises 分布中生成随机数。
  • numpy.random.wald(mean,scale,size):从 Wald 或反高斯分布中生成随机数。
  • numpy.random.weibull(a,size):从威布尔分布中生成随机数。
  • numpy.random.zipf(a,size):从 Zipf 分布中生成随机数。

数学函数

使用 Python 自带的运算符,你可以完成数学中的加减乘除,以及取余、取整,幂次计算等。导入自带的 math 模块之后,里面又包含绝对值、阶乘、开平方等一些常用的数学函数。不过,这些函数仍然相对基础。如果要完成更加复杂一些的数学计算,就会显得捉襟见肘了。

NumPy 为我们提供了更多的数学函数,以帮助我们更好地完成一些数值计算。下面就依次来看一看。

三角函数

首先, 看一看 NumPy 提供的三角函数功能。这些方法有:
* numpy.sin(x):三角正弦。
* numpy.cos(x):三角余弦。
* numpy.tan(x):三角正切。
* numpy.arcsin(x):三角反正弦。
* numpy.arccos(x):三角反余弦。
* numpy.arctan(x):三角反正切。
* numpy.hypot(x1,x2):直角三角形求斜边。
* numpy.degrees(x):弧度转换为度。
* numpy.radians(x):度转换为弧度。
* numpy.deg2rad(x):度转换为弧度。
* numpy.rad2deg(x):弧度转换为度。

比如,我们可以用上面提到的 numpy.rad2deg(x) 将弧度转换为度。

np.rad2deg(np.pi)  # PI 值弧度表示

上面的这些函数非常简单,就不再一一举例了。你可以自己新建一些空白单元格练习。

双曲函数

在数学中,双曲函数是一类与常见的三角函数类似的函数。双曲函数经常出现于某些重要的线性微分方程的解中,使用 NumPy 计算它们的方法为:

  • numpy.sinh(x):双曲正弦。
  • numpy.cosh(x):双曲余弦。
  • numpy.tanh(x):双曲正切。
  • numpy.arcsinh(x):反双曲正弦。
  • numpy.arccosh(x):反双曲余弦。
  • numpy.arctanh(x):反双曲正切。

数值修约

数值修约, 又称数字修约, 是指在进行具体的数字运算前, 按照一定的规则确定一致的位数, 然后舍去某些数字后面多余的尾数的过程。比如, 我们常听到的「4 舍 5 入」就属于数值修约中的一种。

  • numpy.around(a):平均到给定的小数位数。
  • numpy.round_(a):将数组舍入到给定的小数位数。
  • numpy.rint(x):修约到最接近的整数。
  • numpy.fix(x, y):向 0 舍入到最接近的整数。
  • numpy.floor(x):返回输入的底部(标量 x 的底部是最大的整数 i)。
  • numpy.ceil(x):返回输入的上限(标量 x 的底部是最小的整数 i).
  • numpy.trunc(x):返回输入的截断值。

随机选择几个浮点数,看一看上面方法的区别。

a = np.random.randn(5)  # 生成 5 个随机数
a  # 输出 a 的值

print(np.around(a))

print(np.rint(a))

print(np.fix(a))

求和、求积、差分

下面这些方法用于数组内元素或数组间进行求和、求积以及进行差分。

  • numpy.prod(a, axis, dtype, keepdims):返回指定轴上的数组元素的乘积。
  • numpy.sum(a, axis, dtype, keepdims):返回指定轴上的数组元素的总和。
  • numpy.nanprod(a, axis, dtype, keepdims):返回指定轴上的数组元素的乘积, 将 NaN 视作 1。
  • numpy.nansum(a, axis, dtype, keepdims):返回指定轴上的数组元素的总和, 将 NaN 视作 0。
  • numpy.cumprod(a, axis, dtype):返回沿给定轴的元素的累积乘积。
  • numpy.cumsum(a, axis, dtype):返回沿给定轴的元素的累积总和。
  • numpy.nancumprod(a, axis, dtype):返回沿给定轴的元素的累积乘积, 将 NaN 视作 1。
  • numpy.nancumsum(a, axis, dtype):返回沿给定轴的元素的累积总和, 将 NaN 视作 0。
  • numpy.diff(a, n, axis):计算沿指定轴的第 n 个离散差分。
  • numpy.ediff1d(ary, to_end, to_begin):数组的连续元素之间的差异。
  • numpy.gradient(f):返回 N 维数组的梯度。
  • numpy.cross(a, b, axisa, axisb, axisc, axis):返回两个(数组)向量的叉积。
  • numpy.trapz(y, x, dx, axis):使用复合梯形规则沿给定轴积分。
    下面,我们选取几个举例测试一下:
a = np.arange(10,step=2)
print(a)

print(np.sum(a))

np.diff(a)

指数和对数

如果你需要进行指数或者对数求解,可以用到以下这些方法。

  • numpy.exp(x):计算输入数组中所有元素的指数。
  • numpy.log(x):计算自然对数。
  • numpy.log10(x):计算常用对数。
  • numpy.log2(x):计算二进制对数。

算术运算

当然,NumPy 也提供了一些用于算术运算的方法,使用起来会比 Python 提供的运算符灵活一些,主要是可以直接针对数组。

  • numpy.add(x1, x2):对应元素相加。
  • numpy.reciprocal(x):求倒数 1/x。
  • numpy.negative(x):求对应负数。
  • numpy.multiply(x1, x2):求解乘法。
  • numpy.divide(x1, x2):相除 x1/x2。
  • numpy.power(x1, x2):类似于 x1^x2。
  • numpy.subtract(x1, x2):减法。
  • numpy.fmod(x1, x2):返回除法的元素余项。
  • numpy.mod(x1, x2):返回余项。
  • numpy.modf(x1):返回数组的小数和整数部分。
  • numpy.remainder(x1, x2):返回除法余数。
a1 = np.random.randint(0, 10, 5)  # 生成 5 个从 0-10 的随机整数
a2 = np.random.randint(0, 10, 5)
a1, a2  # 输出 a1, a2
# 这里自己可以直接用jupyter的cell,不用print
print(np.add(a1, a2))
print(np.negative(a1))
print(np.multiply(a1,a2))
print(np.divide(a1,a2))
print(np.power(a1,a2))

矩阵和向量积

求解向量、矩阵、张量的点积等同样是 NumPy 非常强大的地方。

  • numpy.dot(a, b):求解两个数组的点积。
  • numpy.vdot(a, b):求解两个向量的点积。
  • numpy.inner(a, b):求解两个数组的内积。
  • numpy.outer(a, b):求解两个向量的外积。
  • numpy.matmul(a, b):求解两个数组的矩阵乘积。
  • numpy.tensordot(a, b):求解张量点积。
  • numpy.kron(a, b):计算 Kronecker 乘积。
a= np.matrix([ [1,2,3], [4,5,6]])
b = np.matrix([[2,2],[3,3],[4,4]])

# 1 2 3   2 2
# 4 5 6   3 3
#         4 4

np.matmul(a,b)

除了上面这些归好类别的方法,NumPy 中还有一些用于数学运算的方法,归纳如下:

  • numpy.angle(z, deg):返回复参数的角度。
  • numpy.real(val):返回数组元素的实部。
  • numpy.imag(val):返回数组元素的虚部。
  • numpy.conj(x):按元素方式返回共轭复数。
  • numpy.convolve(a, v, mode):返回线性卷积。
  • numpy.sqrt(x):平方根。
  • numpy.cbrt(x):立方根。
  • numpy.square(x):平方。
  • numpy.absolute(x):绝对值, 可求解复数。
  • numpy.fabs(x):绝对值。
  • numpy.sign(x):符号函数。
  • numpy.maximum(x1, x2):最大值。
  • numpy.minimum(x1, x2):最小值。
  • numpy.nan_to_num(x):用 0 替换 NaN。
  • numpy.interp(x, xp, fp, left, right, period):线性插值。

代数运算

上面,我们分为 8 个类别,介绍了 NumPy 中常用到的数学函数。这些方法让复杂的计算过程表达更为简单。除此之外,NumPy 中还包含一些代数运算的方法,尤其是涉及到矩阵的计算方法,求解特征值、特征向量、逆矩阵等,非常方便。

这里我们就不再一一尝试了,阅读一遍留下印象,用到时查阅官方文档即可。

数组索引和切片

我们已经明确了,Ndarray 是 NumPy 的组成核心,那么对于 NumPy 的多维数组,其实它完整集成了 Python 对于数组的索引语法 array[obj]。随着 obj 的不同,我们可以实现字段访问、数组切片、以及其他高级索引功能。

数组索引

我们可以通过索引值(从 0 开始)来访问 Ndarray 中的特定位置元素。NumPy 中的索引和 Python 对 list 索引的方式非常相似,但又有所不同。我们一起来看一下:

首先是,一维数据索引:

a = np.arange(10)  # 生成 0-9
a

获取索引值为 1 的数据。

a[1]

分别获取索引值为 1,2,3 的数据。

a[[1, 2, 3]]

对于二维数据而言:

a = np.arange(20).reshape(4, 5)
a

获取第 2 行,第 3 列的数据。

a[1, 2]

如果,我们使用 Python 中的 list 索引同样的值,看看有什么区别:

a = a.tolist() #ndarray 转换成list
a

按照上面的方法获取第 2 行,第 3 列的数据。【报错】

a[1,  2]

Python 中 list 索引 2 维数据的方法正确的做法是:

a[1][2]

如何索引二维 Ndarray 中的多个元素值,这里使用逗号,分割:

a = np.arange(20).reshape(4, 5)
a
a[[1, 2], [3, 4]]

这里需要注意索引的对应关系。我们实际获取的是 [1, 3],也就是第 2 行和第 4 列对于的值 8。以及 [2, 4],也就是第 3 行和第 5 列对应的值 14。

那么,三维数据呢?

a = np.arange(30).reshape(2, 5, 3)
a
a[[0, 1], [1, 2], [1, 2]]

数组切片

NumPy 里面针对Ndarray的数组切片和 Python 里的list 切片操作是一样的。其语法为:

Ndarray[start:stop:step]

[start:stop:step] 分布代表 [起始索引:截至索引:步长]。对于一维数组:

a = np.arange(10)
a
a[:5]
a[5:10]
a[0:10:2]

对于多维数组,我们只需要用逗号 , 分割不同维度即可:

a = np.arange(20).reshape(4, 5)
a

先取第 3,4 列(第一个维度),再取第 1,2,3 行(第二个维度)

a[0:3, 2:4]

按步长为 2 取所有列和所有行的数据。

a[:, ::2]

当超过 3 维或更多维时,用 2 维数据的切片方式类推即可。

排序、搜索、计数

最后,再介绍几个 NumPy 针对数组元素的使用方法,分别是排序、搜索和计数。

我们可以使用 numpy.sort方法对多维数组元素进行排序。其方法为:

numpy.sort(a, axis=-1, kind='quicksort', order=None)

其中:

  • a:数组。
  • axis:要排序的轴。如果为None,则在排序之前将数组铺平。默认值为 -1,沿最后一个轴排序。
  • kind:{‘quicksort’,’mergesort’,’heapsort’},排序算法。默认值为 quicksort。

举个例子:

a = np.random.rand(20).reshape(4, 5)
a
np.sort(a)

除了 numpy.sort,还有这样一些对数组进行排序的方法:

  • numpy.lexsort(keys ,axis):使用多个键进行间接排序。
  • numpy.argsort(a ,axis,kind,order):沿给定轴执行间接排序。
  • numpy.msort(a):沿第 1 个轴排序。
  • numpy.sort_complex(a):针对复数排序。

搜索和计数

除了排序,我们可以通过下面这些方法对数组中元素进行搜索和计数。列举如下:

  • argmax(a ,axis,out):返回数组中指定轴的最大值的索引。
  • nanargmax(a ,axis):返回数组中指定轴的最大值的索引,忽略 NaN。
  • argmin(a ,axis,out):返回数组中指定轴的最小值的索引。
  • nanargmin(a ,axis):返回数组中指定轴的最小值的索引,忽略 NaN。
  • argwhere(a):返回数组中非 0 元素的索引,按元素分组。
  • nonzero(a):返回数组中非 0 元素的索引。
  • flatnonzero(a):返回数组中非 0 元素的索引,并铺平。
  • where(条件,x,y):根据指定条件,从指定行、列返回元素。
  • searchsorted(a,v ,side,sorter):查找要插入元素以维持顺序的索引。
  • extract(condition,arr):返回满足某些条件的数组的元素。
  • count_nonzero(a):计算数组中非 0 元素的数量。
    选取其中的一些方法举例:
a = np.random.randint(0, 10, 20)
a
np.argmax(a)
np.argmin(a)
np.nonzero(a)
np.count_nonzero(a)

实验总结

本次课程主要是学习了 NumPy 的使用方法和技巧。我们了解了 NumPy 的数值类型和多维数组的概念,然后对 NumPy 数组的操作和抽样方法进行了练习。课程还学习了使用 NumPy 执行代数运算的相关方法,并在最后对 NumPy 索引和切片等方法进行了实战。

学习完本次课程,实际上已经基本掌握了 NumPy 使用,但后续还需要通过实战练习来熟悉这些方法。

待续。开心自己也系统的学了一遍。😄

参考

https://www.shiyanlou.com/courses/912

点赞
  1. 图图说道:

    :cowboy: :cowboy: :cowboy: 好文章,nice