译者:AI研习社(季一帆)
双语原文链接:IsTheDataScienceProfessionAtRiskofAutomation?
FacebookAI首次提出多语言机器翻译(MMT)模型——M2M-,该模型可以在不依赖英语数据的情况下在任何种语言间进行翻译。该项目已开源。由于英语训练数据非常广泛,之前的中法翻译模型会分别训练中文与英语以及英语与法语的翻译模型,通过英语作为中间环节实现翻译。本文模型直接应用中文与法语的训练数据,以更好保留语义。计算BLEU指标,表明其高于以英语中转的系统约10个百分点。M2M-总共使用种语言进行训练,这比之前最好的以英语为中心的多语言模型要多10倍。通过M2M-模型,将有助于十亿人的翻译工作,对于低资源语言的翻译提升更加显著。FacebookAI经多年在机器翻译方面的耕耘,如今终于实现该里程碑式的结果。接下来,我们将介绍具体的研究工作,包括为种语言建立的翻译训练数据、模型的细节和训练。同时,我们还将开源该模型,并发布模型的训练和评估设置,以方便其他研究人员的复现,以此为基础进一步推动多语言模型的发展。机器翻译(MT)能够打破语言障碍,将不同语种的人团结起来,为不同人群提供有关COVID的权威信息以帮助他们避免感染。得益于我们在低资源机器翻译及翻译质量评估的最新研究与进展,现在,我们每天能够在FacebookNewsFeed上提供近亿次翻译。
典型的MT系统需要对不同语言和任务单独构建翻译模型,然而,这样的方式却并不适合Facebook,因为在Facebook上,有超过种语言发布的数十亿条内容。现在的多语言系统虽然可以一次处理多种语言,但却是通过英语数据作为源语言和目标语言之间的中转,从而降低了准确性。因此,我们需要一个真正的多语言机器翻译(MMT)模型,该模型可以在任何语言之间直接进行翻译,这将为我们的社区提供更好的服务。
我们已经在Facebook对MT进行了多年的研究,现在终于可以自豪的宣布:我们首次构建了一个的大型MMT模型,该模型可以在种不同语言之间直接进行翻译,而无需依赖英语作为中转语言。同时,我们的多语言模型的表现完全不弱于传统的双语模型,甚至要比以英语为中转的多语言模型提高了10个BLEU点。
通过新颖的挖掘策略,我们首次构建了一个真正的“多对多”翻译数据集,该数据集有75亿个句子,涵盖种不同语言。最终,我们构建了一个具有亿个参数的通用模型,该模型可以捕获相关语言的信息,并能够学习更加多样化的语言和形态特征。开源地址见此。
不同语言的亿万训练语句挖掘
建立多对多MMT模型的最大障碍之一是训练数据,即不同语言之间直接的高质量翻译数据,而不是以英语作为中间语言。然而现实情况是,比起法语和中文的直接翻译数据,中文和英文以及英语和法语的翻译数据更易获取。此外,训练所需的数据量与支持语言的数量成正比,例如,如果每种语言需要需要10M句子对,那么10种语言就是1B句子对,种语言需要B句子对。
构建包含种语言的75亿句子对的多对多MMT数据集是艰巨的任务,由于我们多年来积累了不同的数据挖掘资源,包括ccAligned,ccMatrix和LASER,因此构建该数据集是可行的。为此,我们创建了新的LASER2.0,改进了fastText语言识别,从而提高挖掘质量,相关的训练与评估脚本也会开源。当然,所有这些数据都是开源合法的。
FacebookAI提出的多对多的多语言模型是多年研究的结晶,MT模型、数据资源和优化技术等方面均是开创性的。本文会重点介绍一些主要成就。除此之外,我们通过挖掘ccNET创建了庞大的训练数据集,该数据集是基于fastText的(fastText是处理单词表示的重要方法);基于CCMatrix的LASER库可将句子嵌入多语言嵌入空间中;CCAligned则能够根据URL匹配来对齐文档。进一步,我们开发了改进版本LASER2.0。
即使使用LASER2.0等先进技术,挖掘种不同语言/种可能语言对中的任意一类训练数据也需要大量的计算。由于数据规模巨大,为方便管理,我们首先