数据操作及数据预处理

less than 1 minute read

Published: September 16, 2021

本文介绍了深度学习中 N 维数组的概念，以及使用 PyTorch 和 Pandas 进行数据操作和预处理的基本方法，包括张量的创建、运算、广播机制以及 CSV 文件的读取和缺失值处理。

N 维数组

定义矩阵 维度、精度、赋值

[1,3]：访问二维数组单一元素
[2,:]：只有冒号，代表将此维度全部取出
[1:3,1:]：冒号前后跟数字代表取一个前闭后开区间的元素，多在 CNN 中用于在整张图片矩阵中取出一个子区域的数据操作来与卷积核进行运算
[::3,::2]：两个冒号后代表隔几个元素取，多用于 CNN 中的“空洞卷积”操作

torch.arange(N)：生成一个从 0~N-1 的一维 Tensor
torch.shape：获得张量的形状
torch.numel()：获得张量中所有元素的个数
[tensor].reshape(m,n,o...)：将一个 Tensor 重塑为$(m \times n \times o…)$形状
torch.zeros((m,n))：生成一个 $m \times n$ 的全零张量(一般用于初始化偏置 Bias)
torch.ones((m,n))：生成一个 $m \times n$ 的全 1 张量
torch.tensor([list])：将 Python 列表转换为张量
[tensor1]**[tensor2]：按元素求幂运算
torch.exp([tensor])：按元素求指数 $e^x$
torch.cat([tensor1],[tensor2],dim=0)：按行(第 0 维)纵向连接两个张量(dim=1 为按列横向连接)，如果维度更高，可以 dim>=2
torch 继承了 numpy 的广播机制，不同维度的数组可以进行元素运算，但两个数组至少有一个维度相同
[tensor][X,Y] = m：元素赋值
[tensor][:]：元素改写，不改变内存地址
[tensor].sum()：求和所有元素得到标量
[tensor].numpy()：将张量转换为 Numpy 数组
torch.tensor([ndarray] | [list] | [Dataframe])：将其他格式数据转换为张量格式
[tensor].item() float([tensor]) int([tensor])：将大小为 1 的张量转换为 Python 标量