神经网络要点理解

1 损失函数及其正则化

一个未经正则化的神经网络损失函数为：

其中的计算如下：

此处.

针对上面的公式，我们有表示第个样本的矢量，这个矢量的大小是。表示第个输入在第个类上的输出。每一个输入样本都会在神经网络的输出层产生个输出，表示属于这个类中每个类的可能性。

当我们给定，时，我们可以根据上图来计算每一个，进而根据的公式来计算损失函数。

注意在计算的过程中，我们遇到的一些矩阵(从上图到的计算过程中遇到的矩阵)的维度为：

矩阵	维度

其中为添加了后的矩阵；为添加了后的矩阵；为把1,2,…,10映射为矢量后的矩阵。

计算的是5000个用户在10个类上的cost之和。所以式~()的方括号中如果是矩阵的话应该是一个的矩阵。

计算的部分代码为：

a1 = [ones(m,1) X];
z2 = Theta1*a1';
a2 = 1./(1 + exp(-z2));
a2 = [ones(1,size(a2,2));a2];%add a_0^(2)
z3 = Theta2 * a2;

a3 = 1./(1 + exp(-z3));%10X5000

temp = eye(num_labels);
Y = temp(:,y);
J = (Y .* log(a3) + (1-Y).* log(1-a3))./m;
J = -1*sum(sum(J));

注意为了支持任何大于的分类，代码中不允许出现任何的magic number。比如：

temp = eye(num_labels);

就不能写成：

temp = eye(10);

虽然在这个例子中 num_labels=10 magic number 也是不被允许的。

接下来是正则项的计算：

同样magic number是不被允许的。

2 后向传递算法

后向传递算法的步骤为：

给定一个训练样本首先计算前向过程，直到输出
对每个层的每个节点，计算误差项，这个误差项用来度量这个节点对输出负多大的“责任”；
对于输出节点，我们直接计算网络的activation输出和真实的目标值之间的差即可。用这个差值作为，对于隐藏的层，计算时需要加权考虑层上的错误。

根据上图，我们需要循环处理所有样本，一次处理一个，所以一定会有一个 for t=1:m 。在第次迭代的时候处理第个样本。循环内的步骤为：

设定输入层的值为，执行前向过程，计算。注意在计算过程中需要为添加一个bias项。
对于层3中的每一个输出单元，设定其中是二进制数表示当前的训练样本是不是第类，如果是，则；如果当前样本属于其他类则。
对隐藏层，设定：
从这个样本中累计梯度值。注意要去掉
获得梯度值：

在matlab实现的过程中，也需要仔细核对相关变量的维度。由于我们在计算的过程中使用的是矢量计算，在计算的过程中我们也可以使用全矢量计算。

%% calculate the theta gradient
delta3 = a3 - Y;
temp = Theta2;
temp(:,1) = 0;
Theta2_grad = delta3 * a2'./m + lambda./m*temp ;

delta2 = Theta2(:,2:end)'*delta3 .* sigmoidGradient(z2);
temp = Theta1;
temp(:,1) = 0;
Theta1_grad = delta2 * a1./m + lambda./m*temp;

需要注意的是在正则化过程中需要把中对应bias项的那些值去掉，在代码中我才用了置零处理。另外在计算的过程中也需要把中与bias相关的项去掉。

神经网络要点理解

目录

1 损失函数及其正则化

2 后向传递算法