2020 年了,深度学习接下来到底该怎么走?
什么时候集中注意力?该图改源自Jay Alammar关于神经机器翻译的文章(https://jalammar.github.io/visualizing-neural-machine-translation-mechanics-of-seq2seq-models-with-attention/)。编码器的输出是三个隐藏状态向量,在输出翻译文本时,两个解码状态(时间步长4和5)通过注意力机制(A4和A5)选择了这三个隐藏状态向量的不同比例求和。 注意力机制在前面所述“在抽象空间中预测”的方法中起着关键作用,用于在大量表示(构成无意识空间的表示)中选择需要注意的方面以帮助有意识的任务解决。因果推理,规划或寻找最佳解决方案的图搜索都可以作为时间上的序列处理任务,在每个时间步中,都需要用注意力机制来选择合适的(源于无意识状态集的)隐藏状态子集。 将噪声注入到图遍历的(用到注意力机制的)下一步选择中,这为解决方案的搜索(类似于 RL 中的蒙特卡洛树搜索)开辟了需要探索的方向。更重要的是,可以像 DL 1.0 在翻译任务中所采取的做法,对序列处理任务合适的注意力掩码(根据感官空间表示的函数动态计算)能通过学习得到。 注意力不仅可用于有意识的任务解决,而且还可以自上而下的方式潜在地影响任务的后续感知。这种自上而下的影响是从大脑中汲取的灵感,大脑新皮层(执行有意识的处理)的每个功能单元(皮质柱)都具有感觉传入和传出的连接,这些连接中的一些与运动区域有关。一旦输入中的某些内容引起我们的注意,这些连接就会有意识地将感知引导到输入流的特定部分。例如,从新皮层的感觉区域到处理音频输入的头部肌肉都有运动连接,一旦有声音引起我们的注意,我们的头部就会转到异常声音的发出位置。 图源自 Yoshua Bengio演讲幻灯片(https://drive.google.com/file/d/1zbe_N8TmAEvPiKXmn6yZlRkFehsAUS8Z/view)。有意识的思想自下而上地选择无意识状态中主要的方面,而这又反过来导致注意自上而下地集中在感觉输入上。 6、多时间尺度的终身学习 多时间尺度的学习和迭代优化促进了 OOD 泛化。例如,智能体可以在不同的环境中学会快速的适应,同时通过较慢的迭代以泛化习得的适应。这种多时间尺度方法是一种学会如何去学习的方式。 DL 1.0的从业者通过人来做“学会如何去学习”部分以达到相同的效果,他们通过失败案例扩展训练集,并由人类专家来找到更多此类边缘案例,然后围绕这些失败案例持续地训练有监督的学习模型,最后将训练好的模型部署到实际应用。 特斯拉的实践就是这种方法的一个例子,他们在汽车的更新过程中不断提高自动驾驶能力。这种缓慢地排除罕见事件的方法能否最终将黑天鹅事件发生的概率降到可以忽略的程度,达到现实中的安全,还有待观察。 7、架构先验 “在抽象空间中进行预测”的方法除了依赖于上述注意力机制之外,还可能需要将模型从DL 1.0中对向量处理的机器过渡到对向量集合进行操作的机器,并由动态重组的神经网络模块对其进行操作(相关工作 https://arxiv.org/pdf/1909.10893.pdf)。 迄今为止,在输入空间预测的自监督学习方法似乎不需要新的体系结构,很多现有模型大都可以归为基于能量的模型(例如BERT等语言模型就是基于能量的模型)。自监督学习则在很大程度上利用了这些现有架构。 三、实现接近人类水平的 AI 的其他方法 1、混合方法 迄今为止,有许多混合方法的实现将DL 1.0与传统的符号处理和算法结合在一起。这些混合方法使应用程序能够利用DL 1.0进行部署。因此,混合方法的重要性不可低估。 所有这些混合方法用在决策用例上时,共同点是它们对 DL 1.0 输出执行进一步的算法处理,通常是将DL 1.0输出的分布式表示归结为符号(图嵌入除外),此时,组合性(符号不像矢量那样适于组合,我们只能将它们与更多符号组合在一起,例如像语法树那样)以及分布式表示中固有的相关性就会丢失。 将 DL 的输出归结为符号,然后进行 DL 2.0 任务(例如对这些符号进行推理和规划)的混合方法是否能够让我们实现人类水平的AI,还有待观察。 如今,不少人关于混合方法在实现人类水平AI方面是否具有潜力的争论,可以归结为:DL 2.0任务可以仅用符号来完成吗?抑或是有了DL 1.0的分布式表示所带来的好处,DL 2.0任务是否一定需要分布式表示才可以捕获相关性? 2、仍然需要从自然智能中获得更多的先验知识? 从智能基本计算单元(从硬件的角度)---神经元(尽管人工神经元仅实现很少一部分生物神经元关键功能)开始,自然智能已经在许多方面启发并继续影响人工智能的发展。深度学习继续从自然智能中汲取灵感,例如从多层计算(类似于视觉皮层的视觉感知过程)提供的组合性到有意识任务解决的先验(Yoshua Bengio的论文,https://arxiv.org/pdf/1709.08568.pdf)。 Christos Papadimitriou 在 2019 年发表的论文(https://ccneuro.org/2019/proceedings/0000998.pdf,尽管论文的核心计算原语根源于生物学家实验验证的大脑计算方法中,但它可能会被迅速视为另一种关于大脑的计算模型)强调了上述问题的重要性。暂且先不论想法,我们还能从自然智能的实践中借鉴一些技巧吗? 以下面概述的机制为例,苍蝇(通常代表昆虫嗅觉系统的硬件和功能)如何仅用一个或两个样本就学会识别气味。将这种学习称为“高样本效率”是一种轻描淡写的说法,“在类固醇上学习”可能更合适。 3、苍蝇是如何学会识别气味的? 大约有 50个神经元会感觉到气味,这些神经元随机投射到2000个神经元上,形成了的随机二部图。用向量的术语来说,由50维矢量捕获的气味输入随机投影到2000维矢量上,然后抑制神经元将其强制变为其中非零值约为10%的稀疏矢量。这2000维稀疏矢量可充当苍蝇对特定气味的记忆。 图摘自Christos Papidimitriou的演讲(https://youtu.be/_sOgIwyjrOA)。上图表示苍蝇如何识别气味的模型。它们能记住只暴露一两次的气味,并且能够将其推广到它们学到的知识之外,而且它们只有大约50种不同的气味传感器(我们大约有500种;小鼠大约有1500种)。 紧随上限其后的随机投影(在硬件中实现),似乎是人类也在使用的有关大脑计算的一个非常基本的功能原语(Christos的大脑模型主要基于在此基本计算原语的基础上构建一些简单的算法操作)。 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |