模型压缩95%,MIT韩松等人提出新型Lite Transformer
模型架构是基于序列到序列学习的编码器 - 解码器。在机器翻译任务中,针对 WMT 数据集,基线模型基于 Vaswani 等人提出的模型。对于 IWSLT 数据集,基线模型遵循 Wu 等人的设置。对于文本摘要任务,研究者采用了与 WMT 相同的模型。至于语言建模任务,模型与 Baevski & Auli (2019) 一致,但模型尺寸较小。 该研究提出的架构首先将 transformer base 模型中的 bottleneck 拉平,然后用 LSRA 替换自注意力。更具体地说,是使用两个专门的模块,一个注意力分支和一个卷积分支。 实验结果 机器翻译 表 1 展示了 Lite Transformer 在 IWSLT’14 De-En 数据集上的定量结果,并与 transformer 基线方法和 LightConv 做了对比。在大约 100M Mult-Adds 时,Lite Transformer 模型的 BLEU 值比 transformer 高出 1.6。 表 1:IWSLT’14 De-En 上的结果。 表 2 中的定量结果表明,在 100M Mult-Adds 设置下,Lite Transformer 在 WMT En-De 数据集和 WMT En-Fr 数据集上的 BLEU 值分别比 Transformer 高出 1.2 和 1.7,在 300M Mult-Adds 设置下,也有 0.5 和 1.5 分的提升。 表 2:在 WMT’14 En-De 和 WMT’14 En-Fr 上的结果。 研究者还提供了模型在 WMT En-Fr 上的权衡曲线,如图 4a 所示,Lite Transformer 一直优于原版 transformer。 图 4:在 WMT En-Fr 数据集上的机器翻译权衡曲线,以及在 WIKITEXT-103 数据集上的语言建模权衡曲线。两个曲线都说明了在移动设置下,Lite Transformer 比 transformer 性能更佳(蓝色区域)。 与自动化设计模型的对比 与基于 AutoML 的 Evolved Transformer(ET)相比,Lite Transformer 在移动设置中也有明显的改进。此外,在 100M 和 300M 的 Mult-Adds 下,Lite Transformer 的 BLEU 值分别比 ET 高 0.5 和 0.2,详见表 3。 表 3:不同 NMT 模型的性能和训练成本。 文本摘要 表 4:在 CNN-DailyMail 数据集上的文本摘要结果。 表 5:在 WIKITEXT-103 数据集上的语言建模结果。 【编辑推荐】 真硬核! Build 2020: 自研超算挑战全球 Top5,最大语言模型将开源谷歌中国工程师提出颠覆性算法模型,Waymo实测可提高预测精准度推特CEO称随着人工智能兴起,程序员将“饭碗不保”Visual Studio 已整合 ML.NET 模型构建器首次曝光的计算模型!对标阿里?有没有想过你的中台只是废纸?【责任编辑:张燕妮 TEL:(010)68476606】 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |