您的位置:

从多个方面深入解析激活函数

一、什么是激活函数?

在神经网络中,激活函数决定了神经元是否应该被激活。当输入数据经过一个神经网络节点时,这个节点会计算出加权和,再通过激活函数进行非线性变换,最终输出一个非线性的结果值。

简单而言,激活函数负责将输入信号的线性变化转换成非线性的响应,帮助神经网络理解更加复杂的输入数据。

以下是一个简单的Sigmoid激活函数的例子:


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

二、不同种类的激活函数

激活函数是神经网络中一个非常重要的组成部分,它的设计直接影响着模型的表现。以下我将会介绍几种常见激活函数的优缺点。

1. Sigmoid激活函数

Sigmoid是最常见的激活函数之一。当输入很大或很小时,Sigmoid函数的导数趋于0,梯度消失的问题会很明显。但是在一些二分类模型和少量隐藏节点的神经网络中,仍然有着一些应用。


def sigmoid(x):
    return 1 / (1 + np.exp(-x))

2. Tanh激活函数

Tanh函数在过去被广泛应用于神经网络中,在输入变化小时,有着相对较大的梯度。然而,当输入较大或较小时,Tanh函数的梯度仍然存在消失问题,因此用的不是很多。


def tanh(x):
    return np.tanh(x)

3. ReLU激活函数

ReLU是最常用的激活函数之一,存在着很好的非线性特性和简单的计算过程。当输入大于0时,ReLU函数的导数为1,避免了梯度消失问题;而当输入小于等于0时,ReLU函数的导数为0,使得神经元输出为0,避免了神经元过度激活。


def relu(x):
    return np.maximum(x, 0)

4. LeakyReLU激活函数

LeakyReLU是ReLU的缺陷之一的改进版,由于ReLU激活函数在x<0时,输出为0,从而导致一部分神经元变为“死神经元”,不再发挥作用,因此LeakyReLU激活函数解决了这个问题。当x<0时,LeakyReLU需要乘上很小的数,这样就不会输出0了,而是输出很小的值,使“死神经元”继续发挥作用。


def leaky_relu(x):
    return np.maximum(0.001 * x, x)

三、如何选择激活函数?

选择合适的激活函数需要考虑数据的类型和神经网络的结构。以下是一些常见激活函数的适用场景:

1. Sigmoid

Sigmoid主要适用于二分类问题,一般不建议使用。如果必须使用,则需要注意初始化神经网络的权重参数,不要让Sigmoid函数在输入极端取值时出现梯度消失问题。

2. Tanh

Tanh适用于中小规模的神经网络中,但同样存在着梯度消失问题,需要注意输入取值的范围。

3. ReLU

ReLU是目前主流的激活函数之一,由于不存在梯度消失问题,一般在神经网络的中间层和输出层中广泛应用。

4. LeakyReLU

LeakyReLU可以在ReLU的基础上避免死神经元的问题,适用于中小规模的卷积神经网络中。

选择合适的激活函数需要根据具体的任务及模型结构选择,需要根据具体场景来验证选择的激活函数是否真正符合自己的场景。