矩阵梯度

1 简介

在信息论或者机器学习的论文中，有很多黑体矢量的微分或者积分，再加上梯度函数，简直让人眼花缭乱。于是下定决心把这些黑体的矩阵语言仔细学习一下。出来混迟早是要还的，记得在大学的时候这个矩阵语言属于三不管：数学分析和线性代数都不管，其他课程就更不管了。今天属于还债日。

2 实值函数相对于实向量的梯度

相对于向量的梯度算子记作,定义为：

因此,实向量为变元的实标量函数相对于的梯度为一的列向量，定义为：

梯度方向的负方向成为变元的梯度流(gradient flow)，记为：

从梯度的定义式可以看出：

一个以向量为变元的变量函数的梯度为一向量。
梯度的每个分量给出了变量函数在该分量方向上的变化率

梯度向量最重要的性质之一是，它指出了当变元增大时函数的最大增大率。相反，梯度的负值（负梯度）指出了当变元增大时函数的最大减小率。根据这样一种性质，即可设计出求一函数极小值的迭代算法。

类似地，实值函数相对于行向量的梯度为行向量，定义为：

维行向量函数相对于维实向量的梯度为一矩阵定义为：

若向量函数，其中是向量的标量函数，一阶梯度：

是一个的矩阵，称为向量函数的 Jacobi 矩阵。

若，则:

这是一个非常有用的结论，将帮助我们导出更多非常有用的结论。

若和均和无关，则：

因为，则：

由于：

所以梯度的第个分量为：

即有：

特别的如果为对称矩阵则有：

归纳以上三个例子的结果以及其他结果，便得到实值函数相对于列向量的一下几个常用的梯度公式。

若为常数，则梯度

线性法则：若和分别是向量的实值函数，和为实常数，则：

乘法法则：若和都是向量的实值函数，则：

商法则：若，则：

链式法则：若是的向量值函数，则：

式中为矩阵。

若向量与是无关的常数向量，则：

若和均与无关，则：

若是与无关，而与向量的元素有关，则：

若是一个与向量无关的矩阵，而和是与向量的元素有关的列向量，则：

令为向量，为常数向量，和分别为和常数矩阵，且为对称矩阵，则：

3 实值函数的梯度矩阵

在最优化问题中，需要最优化的对象可能是某个加权矩阵。因此，有必要分析实值函数相对于矩阵变元的梯度。

实值函数相对于是矩阵的梯度为一矩阵，简称梯度矩阵，定义为：

式中是的元素。

实值函数相对于矩阵变元的梯度具有以下性质：

若是常数，其中为矩阵，则梯度

线性法则：若和分别是矩阵的实值函数,均为实常数，则：

乘积法则：若，都是矩阵的实值函数，则：

商法则：若，则：

链式法则：令为的矩阵，且和分别是以矩阵和标量为变元的实值函数，则：

若,,，则：

若非奇异，,,则：

若，则：

指数函数的梯度：

4 迹函数的梯度矩阵

有时候，二次型目标函数可以利用矩阵的迹加以重写。因为一标量可以视为的矩阵，所以二次型目标函数的迹直接等同于函数本身，即利用迹的性质，又可以将目标函数进一步表示为：

因此，二次型目标函数等于核矩阵和向量外积的乘积的迹

对于矩阵,由于，故梯度的元素为：

所以有

考察目标函数，其中和分别为和实矩阵。首先，矩阵乘积的元素为，故矩阵乘积的迹，于是，梯度是一个矩阵，其元素为：

所以有:

由于所以：

同理，由于，所以有：

5 Hessian 矩阵

实值函数相对于实向量的二阶偏导是一个由个二阶偏导组成的矩阵，称为 Hessian 矩阵，定义为：

或者简写为梯度的梯度：

根据定义,Hessian 矩阵的第列是梯度第个分量的梯度，即：

或者可以写作：

因此，Hessian 矩阵可以通过两个步骤计算得出：

求实值函数关于向量变元的偏导数，得到实值函数的梯度
再求梯度相对于行向量的偏导数，得到梯度的梯度即 Hessian 矩阵

根据以上步骤，得到 Hessian 矩阵的下列公式。

对于的常数向量，有：

若是矩阵，则：