是一种基于梯度的优化算法。它与 Adagrad 类似,但引入了一个额外的衰减项抵消 Adagrad 下降的学习率。
深度残差网络(Deep Residual Network)赢得了2015 年的 ILSVRC 挑战赛。这些网络的工作方式是,引入跨层堆栈的快捷连接,让优化器可以学习更「容易」的残差映射(residual mapping)而非更为复杂的原映射(original mapping)。这些快捷连接与 Highway Layer 类似,但它们与数据无关且不会引入额外的参数或训练复杂度。ResNet在 Ima
常在深度神经网络中被用作激活函数。它们的定义是 f(x) = max(0, x) 。较于tanh 等函数,ReLU往往很稀疏(它们的活化可以很容易设置为 0),而且它们受到梯度消失问题的影响也更小。ReLU 主要被用在卷积神经网络中用作激活函数。ReLU 存在几种变体,如Leaky ReLUs、Parametric ReLU (PReLU) 或更为流畅的 softplus近似。
递归神经网络是循环神经网络的树状结构的一种泛化(generalization)。每一次递归都使用相同的权重。就像 RNN 一样,递归神经网络可以使用向后传播(backpropagation)进行端到端的训练。尽管可以学习树结构以将其用作优化问题的一部分,但递归神经网络通常被用在已有预定义结构的问题中,如自然语言处理的解析树中。
RNN 模型通过隐藏状态(或称记忆)连续相互作用。它可以使用最多 N 个输入,并产生最多 N 个输出。例如,输入是一个句子,输出是每个单词的词性标注(part-of-speechtag)(N 到 N),或是这个句子的情感分类(N 到 1);再如,输入是单个图像,输出是描述该图像所对应一系列词语(1 到 N)。在每一个时间步骤中,RNN会基于当前输入和之前的隐藏状态,计算新的隐藏状态「记忆」。其中,
RBN 可被看作随机人工神经网络的概率图形模型。RBN 以无监督的形式学习数据的表征。RBN 由可见层、隐藏层和这些层中的二元神经元的连接构成。RBN 可以使用对比散度(contrastive divergence)进行有效的训练,这是梯度下降的一种近似。
噪音对比估计是通常用于训练带有大输出词汇的分类器的采样损失(sampling loss)。在大量可能的类上计算 softmax 是异常昂贵的。使用 NCE,可以将问题降低成二元分类问题,这可以通过训练分类器区别对待取样和「真实」分布以及人工生成的噪声分布来实现。
是可以从案例中推导简单算法的神经网络架构。例如,NTM 可以通过案例的输入和输出学习排序算法。NTM 通常学习记忆和注意机制的某些形式以处理程序执行过程中的状态。
NMT 系统使用神经网络实现语言(如英语和法语)之间的翻译。NMT 系统可以使用双语语料库进行端到端的训练,这有别于需要手工打造特征和开发的传统机器翻译系统。NMT系统通常使用编码器和解码器循环神经网络实现,它可以分别编码源句和生成目标句。
参见分类交叉熵损失(Categorical Cross-Entropy Loss)。