pytorch-tutorials
数据操作
基本操作
创建:
1 | # 从数组创建 |
函数 | 功能 |
---|---|
Tensor(*sizes) | 基础构造函数 |
tensor(data,) | 类似np.array的构造函数 |
ones(*sizes) | 全1Tensor |
zeros(*sizes) | 全0Tensor |
eye(*sizes) | 对角线为1,其他为0 |
arange(s,e,step) | 从s到e,步长为step |
linspace(s,e,steps) | 从s到e,均匀切分成steps份 |
rand/randn(*sizes) | 均匀/标准分布 |
normal(mean,std)/uniform(from,to) | 正态分布/均匀分布 |
randperm(m) | 随机排列 |
加法:
1 | x + y |
注:PyTorch操作inplace版本都有后缀_, 例如
x.copy_(y)
,x.t_()
索引
使用类似NumPy的索引操作来访问Tensor的一部分
索引出来的结果与原数据共享内存,也即修改一个,另一个会跟着修改。
1 | y = x[0, :] |
函数 | 功能 |
---|---|
index_select(input, dim, index) | 在指定维度dim上选取,比如选取某些行、某些列 |
masked_select(input, mask) | 例子如上,a[a>0],使用ByteTensor进行选取 |
nonzero(input) | 非0元素的下标 |
gather(input, dim, index) | 根据index,在dim维度上选取数据,输出的size与index一样 |
view()
用于改变Tensor的形状
1 | y = x.view(15) |
注意view()
返回的新 tensor 与源 tensor 共享内存,也即更改其中的一个,另外一个也会跟着改变。
Pytorch 还提供了一个reshape()
可以改变形状,但是此函数并不能保证返回的是其拷贝,所以不推荐使用。
如果不想共享内存,推荐先用**clone()
**创造一个副本然后再使用view。
1 | x_cp = x.clone().view(15) |
使用
clone
还有一个好处是会被记录在计算图中,即梯度回传到副本时也会传到源Tensor
。
item()
将一个标量Tensor转换成一个Python number:
1 | x = torch.randn(1) |
线性代数
函数 | 功能 |
---|---|
trace | 对角线元素之和(矩阵的迹) |
diag | 对角线元素 |
triu/tril | 矩阵的上三角/下三角,可指定偏移量 |
mm/bmm | 矩阵乘法,batch的矩阵乘法 |
addmm/addbmm/addmv/addr/baddbmm… | 矩阵运算 |
t | 转置 |
dot/cross | 内积/外积 |
inverse | 求逆矩阵 |
svd | 奇异值分解 |
广播
当对两个形状不同的Tensor
按元素运算时,可能会触发广播(broadcasting)机制:先适当复制元素使这两个Tensor
形状相同后再按元素运算。
1 | x = torch.arange(1, 3).view(1, 2) |
运算的内存开销
1 | y = x + y # 新内存地址 |
注:虽然
view
返回的Tensor
与源Tensor
是共享data
的,但是依然是一个新的Tensor
(因为Tensor
除了包含data
外还有一些其他属性),二者id(内存地址)并不一致。
Tensor 和 NumPy 转换
1 | # tensor <-> numpy 共享内存 |
GPU Tensor
用方法to()
可以将Tensor
在CPU和GPU(需要硬件支持)之间相互移动。
1 | # 以下代码只有在PyTorch GPU版本上才会执行 |
自动求梯度
之前介绍的Tensor
是PyTorch的核心类,如果将其属性torch.requires_grad
设置为True
,它将开始追踪(track)在其上的所有操作(这样就可以利用链式法则进行梯度传播了)。完成计算后,可以调用.backward()
来完成所有梯度计算。此Tensor
的梯度将累积到.grad
属性中。
注意在
y.backward()
时,如果y
是标量,则不需要为backward()
传入任何参数;否则,需要传入一个与y
同形的Tensor
。解释见 2.3.2 节。
如果不想要被继续追踪,可以调用.detach()
将其从追踪记录中分离出来,这样就可以防止将来的计算被追踪,这样梯度就传不过去了。此外,还可以用with torch.no_grad()
将不想被追踪的操作代码块包裹起来,这种方法在评估模型的时候很常用,因为在评估模型时,我们并不需要计算可训练参数(requires_grad=True
)的梯度。
Function
是另外一个很重要的类。Tensor
和Function
互相结合就可以构建一个记录有整个计算过程的有向无环图(DAG)。每个Tensor
都有一个.grad_fn
属性,该属性即创建该Tensor
的Function
, 就是说该Tensor
是不是通过某些运算得到的,若是,则grad_fn
返回一个与这些运算相关的对象,否则是None。
下面通过一些例子来理解这些概念。
Tensor
创建一个Tensor
并设置requires_grad=True
:
1 | x = torch.ones(2, 2, requires_grad=True) |
输出:
1 | tensor([[1., 1.], |
再做一下运算操作:
1 | y = x + 2 |
输出:
1 | tensor([[3., 3.], |
注意x是直接创建的,所以它没有grad_fn
, 而y是通过一个加法操作创建的, 所以它有一个为<AddBackward>
的grad_fn
。
像x这种直接创建的称为叶子节点,叶子节点对应的grad_fn
是None
。
1 | print(x.is_leaf, y.is_leaf) # True False |
再来点复杂度运算操作:
1 | z = y * y * 3 |
输出:
1 | tensor([[27., 27.], |
通过.requires_grad_()
来用in-place的方式改变requires_grad
属性:
1 | a = torch.randn(2, 2) # 缺失情况下默认 requires_grad = False |
输出:
1 | False |
2.3.2 梯度
因为out
是一个标量,所以调用backward()
时不需要指定求导变量:
1 | out.backward() # 等价于 out.backward(torch.tensor(1.)) |
我们来看看out
关于x
的梯度 :
1 | print(x.grad) |
输出:
1 | tensor([[4.5000, 4.5000], |
我们令out
为 , 因为 $$ o=\frac14\sum_{i=1}4z_i=\frac14\sum_{i=1}43(x_i+2)^2 $$ 所以 $$ \frac{\partial{o}}{\partial{x_i}}\bigr\rvert_{x_i=1}=\frac{9}{2}=4.5 $$ 所以上面的输出是正确的。
数学上,如果有一个函数值和自变量都为向量的函数 , 那么 关于 的梯度就是一个雅可比矩阵(Jacobian matrix): $$ J=\left(\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}}\ \vdots & \ddots & \vdots\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right) $$ 而torch.autograd
这个包就是用来计算一些雅克比矩阵的乘积的。例如,如果 是一个标量函数的 的梯度: $$ v=\left(\begin{array}{ccc}\frac{\partial l}{\partial y_{1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right) $$ 那么根据链式法则我们有 关于 的雅克比矩阵就为: $$ v J=\left(\begin{array}{ccc}\frac{\partial l}{\partial y_{1}} & \cdots & \frac{\partial l}{\partial y_{m}}\end{array}\right) \left(\begin{array}{ccc} \frac{\partial y_{1}}{\partial x_{1}} & \cdots & \frac{\partial y_{1}}{\partial x_{n}}\ \vdots & \ddots & \vdots\ \frac{\partial y_{m}}{\partial x_{1}} & \cdots & \frac{\partial y_{m}}{\partial x_{n}} \end{array}\right)=\left(\begin{array}{ccc}\frac{\partial l}{\partial x_{1}} & \cdots & \frac{\partial l}{\partial x_{n}}\end{array}\right) $$
注意:grad在反向传播过程中是累加的(accumulated),这意味着每一次运行反向传播,梯度都会累加之前的梯度,所以一般在反向传播之前需把梯度清零。
1 | # 再来反向传播一次,注意grad是累加的 |
输出:
1 | tensor([[5.5000, 5.5000], |
现在我们解释2.3.1节留下的问题,为什么在
y.backward()
时,如果y
是标量,则不需要为backward()
传入任何参数;否则,需要传入一个与y
同形的Tensor
? 简单来说就是为了避免向量(甚至更高维张量)对张量求导,而转换成标量对张量求导。举个例子,假设形状为m x n
的矩阵 X 经过运算得到了p x q
的矩阵 Y,Y 又经过运算得到了s x t
的矩阵 Z。那么按照前面讲的规则,dZ/dY 应该是一个s x t x p x q
四维张量,dY/dX 是一个p x q x m x n
的四维张量。问题来了,怎样反向传播?怎样将两个四维张量相乘???这要怎么乘???就算能解决两个四维张量怎么乘的问题,四维和三维的张量又怎么乘?导数的导数又怎么求,这一连串的问题,感觉要疯掉…… 为了避免这个问题,我们不允许张量对张量求导,只允许标量对张量求导,求导结果是和自变量同形的张量。所以必要时我们要把张量通过将所有张量的元素加权求和的方式转换为标量,举个例子,假设y
由自变量x
计算而来,w
是和y
同形的张量,则y.backward(w)
的含义是:先计算l = torch.sum(y * w)
,则l
是个标量,然后求l
对自变量x
的导数。 参考
来看一些实际例子。
1 | x = torch.tensor([1.0, 2.0, 3.0, 4.0], requires_grad=True) |
输出:
1 | tensor([[2., 4.], |
现在 y
不是一个标量,所以在调用backward
时需要传入一个和y
同形的权重向量进行加权求和得到一个标量。
1 | v = torch.tensor([[1.0, 0.1], [0.01, 0.001]], dtype=torch.float) |
输出:
1 | tensor([2.0000, 0.2000, 0.0200, 0.0020]) |
注意,x.grad
是和x
同形的张量。
再来看看中断梯度追踪的例子:
1 | x = torch.tensor(1.0, requires_grad=True) |
输出:
1 | True |
可以看到,上面的y2
是没有grad_fn
而且y2.requires_grad=False
的,而y3
是有grad_fn
的。如果我们将y3
对x
求梯度的话会是多少呢?
1 | y3.backward() |
输出:
1 | tensor(2.) |
为什么是2呢?$ y_3 = y_1 + y_2 = x^2 + x^3$,当 时 不应该是5吗?事实上,由于 的定义是被torch.no_grad():
包裹的,所以与 有关的梯度是不会回传的,只有与 有关的梯度才会回传,即 对 的梯度。
上面提到,y2.requires_grad=False
,所以不能调用 y2.backward()
,会报错:
1 | RuntimeError: element 0 of tensors does not require grad and does not have a grad_fn |
此外,如果我们想要修改tensor
的数值,但是又不希望被autograd
记录(即不会影响反向传播),那么我么可以对tensor.data
进行操作。
1 | x = torch.ones(1,requires_grad=True) |
输出:
1 | tensor([1.]) |
pytorch-tutorials