2020 年了，深度学习接下来到底该怎么走?

发布时间：2020-02-16 04:37:03 所属栏目：评论来源：站长网

导读：副标题#e# 在过去的一年，深度学习技术在各个领域一如既往地取得了不少进展。然而当前深度学习技术(本文中称为深度学习1.0)仍然存在着一些明显的局限，例如在解决有意识任务方面的不足。那么针对这些局限性，在未来的一年，有哪些可能的解决方案?深度学习又

在 DL 1.0自然语言处理(NLP)任务中，自监督学习已被证明非常有用并取得成功(能实现最佳性能)。我们有一些可以通过预测句子的下一个单词或预测从句子中删除的单词来学习单词表示的模型(如BERT，它在 NLP 界称为无监督预训练，但本质上是自监督学习，该模型通过重建输入的缺失部分来学习)。

但是，DL 1.0语言建模方法仅从文本输入中学习，而未考虑在其他感官流以及智能体交互的环境中学习(2018年有论文做此尝试，感兴趣可前往https://arxiv.org/pdf/1810.08272.pdf 阅读论文)。基于感官环境的语言学习赋予单词更多的上下文和意义，而不仅仅是单词在句子中上下文的统计(相对于其他单词在句子中的位置)。

而目前的语言学习大多被局限为仅从文本出发进行自监督学习，不仅需要大量的训练文本，而且将模型对语言的理解仅限于单词序列的统计属性，无法与多感官环境学习相匹配。(模型无法仅通过学习单词序列的统计属性获得对空间的理解，比如：奖杯无法放入盒子，因为它太大;奖杯无法放入盒子，因为它太小;需要将“它”对应到正确的对象才能正确理解句子，第一个“它”是指奖杯，第二个“它”则是指盒子。)

迄今为止，自监督学习在图像，视频和音频方面取得的进展不如在文本方面获得的成功，尽管在图像补全(修复)，利用 GAN的视频下一帧预测模型等方面取得了一些成果。但是，从有意识的任务解决角度来看，直接在像素，视频和音频的输入空间中进行预测或许不是正确的方法(我们不会在像素级别上有意识地预测电影接下来会发生什么，我们在对象或概念级别预测)。

尽管不同的感管输入对于理解世界具有重要作用，但通过感管模态进行的输入预测或许最好在抽象的表示空间中进行，而不是在原始的输入空间(视频，音频等)，而上面已经提到过的语言理解也是需要从多感官理解世界(最后的附加注释说明了语言的特殊性质及其在DL 2.0调试中的潜在作用)。

2、利用分布式表示的组合能力

组合性提供了从一组有限的元素中创建更大(指数)组合的能力。

DL 1.0 已通过以下方式利用组合性的指数增长特点：

分布式表示的每个特征可以参与所有概念的表示，从而实现指数组合。特征组成的表示是自动学得的。将分布式表示可视化为实值(浮点数/双精度数)向量可使其变得具体。向量可以是稠密的(大多数分量具有非零值)或稀疏的(大多数分量为零，最极端情况是独热向量)。

DL 模型的每一计算层都可进一步组合，每层的输出是前一层输出的组合。 DL 1.0模型充分利用了这种组合性来学习具有多个层次的表示(例如，NLP模型学会在不同层中捕获不同层面上的句法和语义相似性)

语言具有 DL 1.0 尚未完全利用的其他可组合级别。例如，语言能编写出不可能从训练分布中提取的原创句子，也就是说不仅仅是在训练分布中出现的概率很小，出现概率甚至可能为零。这是一种比分布外(OOD)泛化更进一步的系统化泛化。最近的语言模型可以生成连贯的新颖文章，具有很高的独创性，但模型缺乏对基本概念的理解，特别是当这些文章由诸如工程概念组成时。如前所述，这种缺陷可能在一定程度上是由于缺乏扎实的语言理解，并且可能在DL 2.0中得以克服。

组合性无需仅限于创造新的句子，如下图所示，它也可以是先前概念的原创性组成(尽管语言在某种程度上可以用于描述任何概念)。

DL无法像人类一样出色地用现有数据组成新颖的概念

3、去掉 IID（独立同分布）随机变量假设

大多数DL 1.0模型假定无论是来自训练集还是测试集的数据样本，都彼此独立，并从同一分布中提取(IID假设，即训练和测试数据集的分布都可以用同一组分布参数来描述。)

从非静态环境中进行自监督学习，智能体与这种环境交互过程中(根据其从不断变化的环境中学习的本质)需要去掉 IID 假设。

但是，即使是在有监督学习的问题中(例如，自动驾驶汽车对图像/对象的分类/标识)，IID假设也可能会成为负担，因为始终存在模型在训练中从未见过的现实生活场景，而且这些场景下分类错误可能会造成高昂的成本(在自动驾驶汽车的早期版本中已经有一些实例)。

尽管用大量驾驶时间的数据训练模型可以减少错误，但没有 IID 假设的学习模型比通过IID假设学得的模型，更有可能更好地处理稀有和分布外的情况。

放弃IID假设的另一个原因是：“通过对数据进行混洗使训练和测试数据同质化”的做法在创建训练模型的数据集时就引入了选择偏差。

为了实现IID，将从不同来源(包含属性差异)获得的数据进行混洗，然后分为训练集和测试集。这会破坏信息并引入虚假的关联。例如，考虑将图像分类为牛或骆驼的例子。母牛的照片全都在绿色的牧场上，而骆驼则在沙漠中。对模型进行训练后，模型可能无法对沙滩上的母牛图片进行分类，因为模型引入了虚假的关联，将绿色景观分类为母牛，将土色景观分类为骆驼。

我们可以通过让模型学习不同环境中的不变特征来避免这种情况。例如，我们可以在不同绿色比例的牧场上拍摄奶牛的照片，其中一个牧场90%是绿色，另一个牧场80%是绿色。这样模型就可以学到牧场和奶牛之间存在很强但变化的相关性，因此不能通过牧场来判断图片中的动物是不是奶牛。但是，不管母牛本身处于何种环境，模型都应该能够识别它们。

因此，通过利用不同的分布来识别不变属性，而不是将它们全部混在一起，可以防止虚假的关联性。尽管这只是一个例证，但广泛利用分布变化中的信息并学习变化分布中的不变表示，可能有助于学得鲁棒的表示。

顺便说一下，与直接确定因果关系变量相比，确定在分布变化中不变的变量相对容易，因此可以将其用作识别因果关系变量的方法，不过挑战在于找出那些变化的分布中不变的变量。

一个自然的问题是，如果我们放弃IID假设，我们如何在变化的环境中准确地学习表示?

4、两种自监督表示学习方法

自监督表示学习的两种方法为：

在输入空间中预测接下来会发生什么。

在抽象空间中预测接下来会发生什么。

（编辑：我爱故事小小网_铜陵站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

3/10

首页

尾页