教学参考-30

来自cslt Wiki
跳转至: 导航搜索

教学目标

  • 了解人类语言的复杂性,从而了解机器翻译的困难所在
  • 了解基于规则、基于统计和基于神经网络的三种机器翻译方法


教学内容

人类语言

  • 据统计,人类有5000-7000种,大部分是没有形成文字的口语。在各种语言中,汉语占绝对优势,是使用人数最多的语言。
  • 语言是人类的特有能力,不仅可表达丰富的思想,而且极具创造力,可以用有限的单元组合起来描述无穷无尽的新事物。
  • 同时,人们创造了语法规则来约束语言过程,又随时可以打破这一约束,极为灵活。
  • 最后,人类语言高度抽象,相似的符号意义完全不同。如英语里”to”和”too”,不论发音还是形态都很相似,但意义截然不同。
  • 这些复杂性意味着从一门语言到另一门语言翻译非常困难。


基于规则的机器翻译方法

  • 语言的多样性给交流带来极大障碍,因此,自计算机诞生之初人们就想到用机器代替人来进行翻译,如Warren Weaver在1947年写给 Norbert Wiener 的信中就谈到了机器翻译的设想。
  • 美苏冷战时期,为了情报工作需要,美苏双方都在努力开发机器翻译系统。当时的翻译方式基本上是一本词典加上若干人为规则。例如,IBM推出第一台翻译机器IBM-701,基于6条文法转换规则和250个单词,成功将约 60 句俄文自动翻译成英文。这一成就极大激发了机器翻译研究者的热情。
  • 然而,人们很快发现人类的语言非常复杂,不是拿本词典就可以翻译的。1966年以后,失望情绪开始蔓延,此后十年机器翻译研究几乎停滞。
  • 70年代后,受乔姆斯基生成语法理论的影响,人们开始探索理解型翻译,即首先对源语言句子做自下而上的语法解析,再基于得到的语法结构做自上而下的目标语言生成。尽管思路上很清晰,但人们还是发现实际语言太过复杂,很多时候难以解析,翻译更加无从谈起。基于规则的翻译方法走入死胡同。


基于统计的机器翻译方法

  • 考虑到规则对人类语言的脆弱性,人们开始研究基于数据驱动的机器翻译模型。一个重大突破是基于短语的统计机器翻译模型(SMT)的诞生。
  • 如右图所示,基于大量平行语料库,首先对源句和目标句中的短语进行对齐,由此学习不同语言短语间的对应词典。基于这一短语词典,并结合目标语言的语言模型,即可实现较为顺畅的翻译。
  • SMT依然保留了传统基于规则的翻译系统中关于词典和转换规则的概念,只不过这些词典和规则(语言模型)是通过数据学出来的,且具有概率意义,从而可处理语言的复杂性。

基于神经网络的机器翻译方法

  • 2014年以来,以谷歌为代表的研究机构将深度学习引入机器翻译,称为神经机器翻译(NMT)。2018年,微软报告他们的中英机器翻译系统在WMT2017评测集上已经达到人类翻译员的水平。
  • 和SMT不同,NMT中已经不再有规则的影子,不论是字典还是转换规则,都被实现在神经网络的连接权重中。这一根本变革使得系统结构变得更简单,学习能力也更强,同时也对数据提出了更高要求。

打破语言边界

  • 从1947年Warren Weaver提出机器翻译的概念以来已经过去了70多年,现在NMT已经基本上可以满足主要语言之间的翻译需求了。然而,在小语种翻译任务上,NMT的性能还是差很远,打破语言边界的理想还没有完全实现。
  • 近年来,人们研究了很多方法来解决这个问题,包括无监督学习方法,融合知识与数据的方法等。基于人类语言的共通性,可以预期未来机器翻译一定可以实现人类沟通无障碍的目标。