返回顶部
首页
时尚 | 生活 | 工具 | 诗词 |
您现在的位置:
首页 数码 详细信息
一种机器学习方法产生幻觉,可以更好地进行文本翻译
2022-06-07    阅读量:31518    新闻来源:互联网     |  投稿

作为婴儿,我们会叽叽喳喳地模仿我们学习语言的方式。我们不是从阅读原始文本开始的,这需要对世界的基本知识和理解,以及解释和推断描述和关系的高级能力。相反,人类开始我们的语言之旅是缓慢的,通过指向我们的环境并与之互动,以我们的语言为基础,并通过物理和社会世界的语境感知其含义。最终,我们可以造出完整的句子来表达复杂的想法。

同样,当人类开始学习并翻译成另一种语言时,将其他感官信息(如多媒体)与新的和不熟悉的单词(如带有图像的抽认卡)结合起来,可以提高语言习得和记忆。然后,通过足够的练习,人类可以在没有伴随媒体的情况下准确地翻译上下文中新的、看不见的句子;然而,根据原文想象一幅图片会有所帮助。

这是麻省理工学院、IBM和加州大学圣地亚哥分校的研究人员提出的一种新的机器学习模型VALHALLA的基础,在该模型中,经过训练的神经网络可以看到一种语言的源语句,对其外观产生幻觉,然后将其转换为目标语言。该团队发现,他们的方法证明了机器翻译比纯文本翻译更精确。此外,它还为句子较长、语言资源不足以及机器翻译无法访问部分源句子的情况提供了额外的帮助。

作为自然语言处理(NLP)人工智能领域的一项核心任务,机器翻译“是一项非常实用的技术,每天有数百万人在使用”,研究合著者Yoon Kim说,麻省理工学院电气工程和计算机科学系助理教授,隶属于计算机科学和人工智能实验室(CSAIL)和麻省理工学院-IBM Watson AI实验室。随着深度学习的最新重大进展,“在如何使用非文本信息方面出现了一个有趣的发展鈥攆或例如,图像、音频或其他接地信息鈥攖o处理涉及语言的实际任务,”Kim说,因为“当人类执行语言处理任务时,我们是在一个扎根的、有位置的世界中进行的。“研究小组假设,在推理过程中,幻觉图像和文本的配对模拟了这一过程,为改进当前使用纯文本数据的最先进技术的性能提供了背景。

这项研究将在本月举行的IEEE/CVF计算机视觉和模式识别会议上发表。Kim的合著者是加州大学圣地亚哥分校的研究生李毅和努诺·瓦康塞洛斯教授,以及研究人员Rameswar Panda、Chun fu“Richard”Chen、Rogerio Feris和IBM research和MIT-IBM Watson AI Lab的IBM主管David Cox。

学习从图像中产生幻觉

当我们学习新的语言和翻译时,我们经常会得到一些例子和练习,然后再自己去冒险。机器翻译系统也是如此;然而,Panda说,如果在训练期间使用图像,这些人工智能方法也需要视觉辅助来进行测试,这限制了它们的适用性。

“在现实世界中,你可能没有关于源句的图像。因此,我们的动机基本上是:在推理过程中,我们可以使用视觉幻觉,而不是使用外部图像作为输入鈥攖他想象视觉场景的能力鈥攖o改进机器翻译系统?熊猫说。

为了做到这一点,该团队使用了一种带有两个变压器的编码器-解码器体系结构,这是一种神经网络模型,适用于与序列相关的数据,如语言,可以关注关键字和句子的语义。一个转换器产生视觉幻觉,另一个使用第一个转换器的输出执行多模式转换。

在训练过程中,有两个翻译流:一个源句子和一个与之配对的基本事实图像,以及同一个源句子在视觉上产生幻觉以形成文本图像对。首先,将地面真实图像和句子标记为可由变形金刚处理的表示;就句子而言,每个单词都是一个标记。源语句再次标记,但这一次通过视觉幻觉转换器,输出幻觉,这是句子的离散图像表示。研究人员采用了一种自回归方法来比较基本事实和幻觉表示的一致性鈥攅.g、 ,同音异义词:对动物“蝙蝠”的引用不会被误认为是棒球棒。幻觉转换器然后利用两者之间的差异来优化其预测和视觉输出,确保上下文一致。

然后,这两组标记同时通过多模态翻译转换器,每个标记包含句子表示和幻觉或地面真实图像。将标记化文本翻译输出与彼此相似以及与另一种语言中的目标句子相似的目标进行比较。然后将任何差异中继回转换转换器,以进行进一步优化。

对于测试,地面真实图像流会下降,因为图像可能在日常场景中不可用。

“据我们所知,我们还没有看到任何实际使用幻觉转换器和多模式翻译系统来提高机器翻译性能的工作,”Panda说。

可视化目标文本

为了测试他们的方法,该团队将VALHALLA与其他最先进的多模式和纯文本翻译方法进行了对比。他们使用了公共基准数据集,其中包含带源语句的地面真相图像,以及用于翻译纯文本新闻文章的数据集。研究人员对其在13项任务中的表现进行了测量,从资源丰富的语言(如英语、德语和法语)、资源不足的语言(如英语到罗马尼亚语)和非英语(如西班牙语到法语)的翻译。该小组还测试了不同的变形金刚模型大小、准确度如何随句子长度而变化,以及在有限的文本语境下的翻译,其中部分文本对机器翻译是隐藏的。

该团队观察到相对于纯文本翻译方法的显著改进,提高了数据效率,并且较小的模型比较大的基础模型表现更好。随着句子越来越长,瓦尔哈拉在其他方法中的表现也越来越强,研究人员将其归因于添加了更多模棱两可的单词。在部分句子被掩盖的情况下,瓦尔哈拉可以恢复并翻译原文,这让研究小组感到惊讶。

进一步出乎意料的发现出现了:“在没有那么多训练[图像和]文本对的地方,(比如资源不足的语言),改进更为显著,这表明图像基础有助于低数据状态,”Kim说。“另一件令我非常惊讶的事情是,即使是在不一定容易连接到图像的文本类型上,性能也得到了提高。例如,如果这有助于翻译视觉上突出的句子,比如‘房子前面有一辆红色的车’,也许就不那么令人惊讶了。”[然而],即使在纯文本[新闻文章]领域,该方法也能够改进纯文本系统。"

虽然VALHALLA的表现很好,但研究人员指出,它确实有局限性,需要用图像对成对的句子进行注释,这可能会使获取成本更高。它在地面领域的表现也更好,而不是纯文本新闻文章。此外,Kim和Panda指出,像VALHALLA这样的技术仍然是一个黑匣子,假设幻觉图像提供了有用的信息,团队计划调查模型学习的内容和方式,以验证他们的方法。

未来,该团队计划探索其他改进翻译的方法。“在这里,我们只关注图像,但还有其他类型的多模态信息鈥攆例如,语音、视频或触摸,或其他感官模式,”熊猫说我们相信,这种多模式的基础可以导致更有效的机器翻译模式,有可能有利于世界上许多低资源语言的翻译。"

这篇文章由麻省理工学院新闻网(web.MIT.edu/newoffice/)转载,该网站是一个受欢迎的网站,涵盖了有关麻省理工学院研究、创新和教学的新闻。

标签:
免责声明:本文仅代表作者本人观点,与中网风格,stylechina.com无关。本网对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。本网转载自其它媒体的信息,转载目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。客服邮箱:23341571@qq.com | 客服QQ:23341571
全站地图 | 二级目录 | 上链请联系业务QQ:23341571 或 业务微信:kevinhouitpro