2020 年了，深度学习接下来到底该怎么走?

发布时间：2020-02-16 04:37:03 所属栏目：评论来源：站长网

导读：副标题#e# 在过去的一年，深度学习技术在各个领域一如既往地取得了不少进展。然而当前深度学习技术(本文中称为深度学习1.0)仍然存在着一些明显的局限，例如在解决有意识任务方面的不足。那么针对这些局限性，在未来的一年，有哪些可能的解决方案?深度学习又

两种自监督学习方法。在左图中，通过预测输入空间的缺失部分来进行表示学习。例如，在从视频流进行自监督学习中，通过使用时间t-1处的图像帧来预测时间t处的图像帧。预测器将时间t-1处的帧和潜变量作为输入来预测时间t处的帧。该模型输出利用潜变量给出多个预测，然后(在基于能量的模型中)选择能量最低的预测对(y，y’)。在右图中，预测发生在学得的表示c和h所在的抽象空间中。训练目标函数V以特定方式使当前状态h与过去状态c匹配，以保持这两个状态之间的一致性。该目标函数的实际实现还有待确定，参考部分提供了有关此方法的更多详细信息。

这两种方法并不是互斥的，模型也可以同时使用两种方法学习表示。

1）在输入空间中预测接下来会发生什么

这通常是通过一个包含了有关环境所有未知信息(包括智能体和智能体之间交互信息)的潜变量来实现的，通过训练模型来预测未来，或者等效地使用重构错误作为学习表示的方法来重构未来。基于能量的模型是学习此类表示的一种方法。

这种方法把输入(x)和输入的预测/重构部分(y)通过一个标量值能量函数映射到能量平面，并使得学得的输入数据点x和y的表示具有较低的能量。这可以通过两种途径来实现：

(1)第一种途径是降低输入数据点(x及其预测y)的能量，同时提高所有其他点的能量(例如，在基于能量的GAN中生成器选择远离输入点所在位置的对比数据点)

(2)第二种途径是(通过网络结构或某种正则化)将输入数据点的能量大小限制在较低水平。如前所述，环境中的未知部分通常由一个潜变量(z)反映，通过变化z可以对y进行多个预测，然后选择具有最低能量的一个预测。

潜变量的信息容量须受到多种方法的限制，例如使潜变量满足稀疏性要求的正则化，添加噪声等方法。这些潜变量通常是在训练期间通过编码器学得的，该编码器同时接受输入(x)和要预测的实际数据(y')。然后，解码器利用潜变量和x(实际上，是x的变换版本，变换通过某种神经网络完成)来进行预测。

能量函数作为成本函数，然后将此函数的标量输出用于训练模型以学习正确的表示。通过解码器来进行推断(实际上，编码器还可以在下面会讲到的终生训练周期中使用)。 Yann LeCun在最近的演讲中(https://youtu.be/A7AnCvYDQrU)详细介绍了这种方法，并展示了这种方法如何使汽车学习在模拟环境中驾驶(训练数据是现实场景中汽车的行车记录视频，模型通过预测在视频的下一帧中该车与其他车在车道上的位置来学习，成本函数考虑了该车与其他车之间的距离以及该车是否还在原来的车道上)。

这种方法在本质上是将 DL 1.0模型用于重构输入的自监督学习任务，该任务的反馈信息非常丰富(视频中的下一个图像帧，音频等)，而不仅限于标量奖励(强化学习)，或者标签(有监督学习)。

2）在抽象空间中预测接下来会发生什么

该方法基于如下假设：环境变化可以由一些因果变量(最终体现为稀疏表示)来解释，这些因果变量是从高维度表示(类似于DL 1.0中表示的感知空间)中提取的，而高维表示又是通过从环境中的感官输入学得的。最后用因果变量的稀疏表示预测未来，也就是说，不是在原始输入空间中进行预测，而是在所学得的稀疏表示与此表示所衍生的感知空间相一致的空间中进行预测。

这类似于我们计划从工作地点开车回家，是在非常稀疏(低维度)的空间里进行规划路线操作，而不是在车辆行驶中实际感官输入的空间中进行此操作。

相比于从感知流原始输入空间中预测，从抽象空间中预测即将会发生什么具有一些潜在的优势，它不仅可以学得考虑环境变化的输入流的更好表示(类似于DL 1.0中的表示)，而且还可以学习输入感知流变化的原因。

本质上，针对分布变化和 OOD 性能训练这些模型(如参考部分所述，用于学习这些表示的训练目标函数该如何设计仍然是一个开放的问题)的做法可用作学习良好低维因果表示的训练信号。同时，可以通过低维表示来解释环境变化的假设对编码器施加了学习此类表示的约束(可能还需要其他约束)。

已有一些早期工作使用DL方法来找变量(有向图)之间的因果关系，该关系可用于在两个随机变量A和B的联合分布P(A,B)的两个等效因式分解---P(A)P(B/A) 和P(B)P(A/B)之间进行选择，以最好地捕获A和B之间的因果关系。具有正确因果因式分解的模型，例如P(A)P(B/A)，即当A是B的原因且A受到一些噪声干扰时，可以更快地适应分布变化。( Yoshua Bengio 最近的演讲也详细介绍了这种方法)。

虽然这两种方法大不相同，但它们具有潜在的联系。一个联系是两种方法(即使是不同方式的实现)都有稀疏性约束。另一个联系是因子图和能量函数之间的联系。

变量之间(在合适的表示空间中的)的联合分布是对世界的粗略近似，可以帮助智能体进行计划、推理、想象等。因子图可以通过将联合分布划分为多个随机变量子集(一个变量可以在多个子集中)的函数来表示联合分布。正确的划分会使能量函数下降，否则，将划分放入因子图中将不是一种明智的做法。

5、注意力机制的作用

尽管注意力本质上是一个加权和，但是在以内容驱动的训练和推理期间权重本身是动态计算时，这种简单操作的威力显而易见。

注意力集中在哪里？

标准前馈神经网络中任何节点的输出是该节点的输入加权和的非线性函数，该节点在训练时学习权重。相反，注意力机制允许即使在利用输入内容进行推理时，也动态地计算这些权重。这使得在训练和推理时连接计算层的静态权重可以被注意力机制根据内容计算出的动态权重所代替。

Transformer架构(例如BERT)就使用了这种方法。例如，单词的向量表示是其邻居的加权和，权重确定每个邻居在计算单词的向量表示时的重要性(也就是注意力集中在哪里)，关键在于这些权重由依赖句子中的所有单词的注意头(BERT模型的每一层中都有多个注意头)动态算出。

注意力集中在哪里？该图说明了在各层间具有动态权重边连接的注意力模型与各层间具有静态权重边连接的普通模型(例如标准FFN)在推理时的比较。在左侧图中：节点X的输出是输入的加权和，在推理期间，权重w1.w2.w3.w4.w5保持不变，与输入(A1-A5.B1-B5)无关。在右侧图中：注意力模型中节点X的输出也是输入的加权和，但权重本身(在训练和推理期间)是根据输入动态计算的。这就使得在输入(A1-A5.B1-B5)不同时权重也会发生变化，如不同颜色的虚线边所示。

什么时候集中注意力？

（编辑：我爱故事小小网_铜陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/10

首页

尾页