softmax
对于向量,计算它对应的softmax向量:
分母为归一化因子,使得。
1 | def softmax(z): |
softmax 的梯度
求梯度
令,那么对于公式(1)可简写成。
当i=j时,
当i!=j时,
cross-entropy loss function
从最大似然估计推出交叉熵损失函数
最大似然估计函数
似然函数写成联合概率分布形式
对于给定参数,式(5)可简化成
那么,对数似然函数即可简化成:
对于多个样本,对应的对数似然函数为:
交叉熵的梯度
对公式(7)求关于z的梯度:
以e为底的对数导数:
对于t向量是one-hot向量,有