广播与通用函数
广播是 NumPy 的核心概念,它允许将标量或数组与具有不同形状的其他数组执行逐元素操作。通用函数 (ufunc) 是预定义的函数,应用于数组的每个元素。通过结合广播和 ufunc,可以实现高效且简洁的数据操作。
通用函数范例:
- 矢量化乘法:
np.multiply(A, B)
- 元素比较:
np.greater(A, B)
- 数学运算:
np.sin(x)
高级索引与切片
高级索引和切片提供了超出标准索引的灵活数据访问方式。布尔索引选择满足特定条件的元素,而花式索引和高级切片允许使用数组或列表索引多个轴上的元素。
高级索引范例:
- 布尔索引:
A[A > 5]
- 花式索引:
A[np.array([0, 2, 4])]
- 高级切片:
A[::2, 1::2]
数组聚合与归约
聚合函数用于对数组中数据进行分组或汇总。归约函数将数组中的元素减少为单个标量值。常见的聚合函数包括:
- 求和:
np.sum()
- 平均值:
np.mean()
- 最大值:
np.max()
- 最小值:
np.min()
排序与唯一值
排序算法对数组的元素进行排序,而唯一值函数返回数组中唯一元素的集合。这些功能对于数据分析和数据清理非常有用。
排序范例:
- 排序数组:
np.sort(x)
- 沿特定轴排序:
np.sort(A, axis=1)
唯一值范例:
- 找出唯一值:
np.unique(A)
- 计数唯一值:
np.unique(A, return_counts=True)
广播、高级索引和聚合的结合
结合广播、高级索引和聚合可以实现复杂的数据操作。例如,可以对数组中的特定行或列求和,或对满足特定条件的元素进行计数。
范例:
- 对每个列求和:
np.sum(A, axis=0)
- 对布尔索引元素求平均值:
np.mean(A[A > 5])
性能优化
通过利用 NumPy 的矢量化、广播和高效的底层实现,可以优化数据操作的性能。其他性能优化技巧包括:
- 避免创建不必要的副本
- 使用数组表达式而不是循环
- 使用 NumPy 的优化的 ufunc
其他高级特性
NumPy 还提供了其他高级特性,例如:
- 数组广播
- 花式索引
- 线性代数操作
- 随机数生成
用例
NumPy 的进阶技术在各种应用中都有用,包括:
- 数据分析与挖掘
- 科学计算
- 图像处理
- 机器学习