中新网北京6月8日电 (记者 孙自法)国际著名学术期刊《自然》最新一篇人工智能(AI)研究论文称,研究人员开发出一个Meta人工智能模型的底层技术,该模型能翻译200种不同语言,增加了能用机器翻译的语言数量。
该论文介绍,神经机器翻译模型利用人工神经网络翻译各种语言,这些模型通常需要大量可在线获取的数据加以训练,但并非所有语言数据都公开、低成本或是普遍可及,此类语言被称为“低资源语言”。而增加模型在翻译语言数量上的语言输出可能会影响模型的翻译质量。
为此,本篇论文作者、“不落下任何语言”(No Language Left Behind,NLLB)团队开发出一种跨语言技术,能让神经机器翻译模型学习如何利用翻译高资源语言的预存能力来翻译低资源语言。作为成果,NLLB团队开发了一个在线多语言翻译工具,名为NLLB-200,该工具能容纳200种语言,其低资源语言数量是高资源语言的三倍,翻译表现比已有系统高了44%。
由于NLLB团队在许多低资源语言上只能获取1000-2000例样本,为扩大NLLB-200的训练数据量,他们用一个语言识别系统发现了这些特定语言的更多实例。该团队还从互联网存档中挖掘双语文本数据,帮助提升了NLLB-200的翻译质量。
《自然》同期发表同行专家“新闻与观点”文章指出,NLLB团队研发的这个工具,可以帮助很少被翻译的那些语言的使用者,让他们能使用互联网和其他技术。
此外,NLLB团队还强调教育是一个非常重要的应用,因为这个模型可以帮助低资源语言使用者获取更多图书和研究文章。不过,该团队也提醒说,误译的情况仍有可能出现。(完)
免责声明
本文转载自网络平台,发布此文仅为传递信息,本文观点不代表本站立场,版权归原作者所有;不代表赞同其观点,不对内容真实性负责,仅供用户参考之用,不构成任何投资、使用等行为的建议。请读者使用之前核实真实性,以及可能存在的风险,任何后果均由读者自行承担。
本网站提供的草稿箱预览链接仅用于内容创作者内部测试及协作沟通,不构成正式发布内容。预览链接包含的图文、数据等内容均为未定稿版本,可能存在错误、遗漏或临时性修改,用户不得将其作为决策依据或对外传播。
因预览链接内容不准确、失效或第三方不当使用导致的直接或间接损失(包括但不限于数据错误、商业风险、法律纠纷等),本网站不承担赔偿责任。用户通过预览链接访问第三方资源(如嵌入的图片、外链等),需自行承担相关风险,本网站不对其安全性、合法性负责。
禁止将预览链接用于商业推广、侵权传播或违反公序良俗的行为,违者需自行承担法律责任。如发现预览链接内容涉及侵权或违规,用户应立即停止使用并通过网站指定渠道提交删除请求。
本声明受中华人民共和国法律管辖,争议解决以本网站所在地法院为管辖法院。本网站保留修改免责声明的权利,修改后的声明将同步更新至预览链接页面,用户继续使用即视为接受新条款。
