Skip to content

Activation Function

一个简单的总表:

激活函数常见用途优点缺点
Sigmoid二分类输出层输出可解释为概率梯度消失
Tanh早期 RNN零中心梯度消失
ReLUCNN、MLP简单高效神经元死亡
Leaky ReLUCNN、MLP缓解 ReLU 死亡负斜率需设置
PReLU视觉模型负斜率可学习增加参数
ELU深层网络输出更平滑计算较慢
SoftplusReLU 平滑替代可导计算较慢
GELUTransformer、BERT、ViT平滑,效果好比 ReLU 慢
SiLU/SwishCNN、现代网络平滑,性能好计算稍复杂
Mish视觉模型平滑使用不如 GELU/SiLU 广
Softmax多分类输出概率分布通常不用作隐藏层
GLU/GeGLU/SwiGLUTransformer/LLM FFN表达能力强结构更复杂