Softmax with cross-entropy derivative

softmax

对于向量,计算它对应的softmax向量:

分母为归一化因子,使得

1
2
3
def softmax(z):
'''softmax function'''
return np.exp(z)/np.sum(np.exp(z))

softmax 的梯度

求梯度

,那么对于公式(1)可简写成

当i=j时,

当i!=j时,

cross-entropy loss function

从最大似然估计推出交叉熵损失函数

  • 最大似然估计函数

  • 似然函数写成联合概率分布形式

  • 对于给定参数,式(5)可简化成

  • 那么,对数似然函数即可简化成:

  • 对于多个样本,对应的对数似然函数为:

交叉熵的梯度

对公式(7)求关于z的梯度:

以e为底的对数导数:

对于t向量是one-hot向量,有

参考资料