ALBERT:用于语言表达自我监督学习的Lite BERT
自BERT问世以来,自然语言的研究已经发展到了一个新的模式,充分利用大量现有文本的参数而不需要数据注释。因此,训练用于自然语言处理的机器学习模型(NLP)无需从零开始。但是,为了进一步完善这种用于NLP的新方法,我们必须找到一种对语言理解性能(网络的高度即层数,网络的宽度隐藏层的大小)的确切表示形式。 在ICLR 2020会议上,谷歌介绍了BERT的升级版ALBERT:用于语言表示的自我监督学习的精简BERT,它能够提高12项NLP任务的最新性能,ALBERT已在TensorFlow之上开源发布,其中包括许多现成的ALBERT预训练语言表示模型。 什么对NLP性能有贡献?
要评估模型的语言理解能力,可以进行阅读理解测试(例如,类似于SAT阅读测试)。这可以通过RACE数据集完成(2017),这是为此目的提供的最大的公开资源。在阅读理解挑战方面的计算机性能很好地反映了过去几年中语言建模的进步:仅通过与上下文无关的单词表示进行预训练的模型在该测试中的评分很低(45.9;最左边的小节),而带有上下文的BERT依赖的语言知识,相对得分为72.0。完善的BERT模型,例如XLNet和RoBERTa,在82-83的分数范围内,将标准设定得更高。当在基础BERT数据集(维基百科和书籍)上进行训练时,上述ALBERT-xxlarge配置产生的RACE得分在相同范围内(82.3)。但是,当在与XLNet和RoBERTa相同的较大数据集上进行训练时,它显着优于迄今所有其他方法,并在89.4时建立了新的最新评分。 ALBERT的成功证明了识别模型的各个方面的重要性,这些模型会产生强大的上下文表示。通过将改进工作集中在模型体系结构的这些方面,可以极大地提高各种NLP任务的模型效率和性能。 (编辑:威海站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |