教学参考-30

来自cslt Wiki

跳转至：导航、搜索

目录

1 教学目标
2 教学内容

教学目标

了解人类语言的复杂性，从而了解机器翻译的困难所在
了解基于规则、基于统计和基于神经网络的三种机器翻译方法

教学内容

人类语言

据统计，人类有5000-7000种，大部分是没有形成文字的口语。在各种语言中，汉语占绝对优势，是使用人数最多的语言。
语言是人类的特有能力，不仅可表达丰富的思想，而且极具创造力，可以用有限的单元组合起来描述无穷无尽的新事物。
同时，人们创造了语法规则来约束语言过程，又随时可以打破这一约束，极为灵活。
最后，人类语言高度抽象，相似的符号意义完全不同。如英语里”to”和”too”，不论发音还是形态都很相似，但意义截然不同。
这些复杂性意味着从一门语言到另一门语言翻译非常困难。

基于规则的机器翻译方法

语言的多样性给交流带来极大障碍，因此，自计算机诞生之初人们就想到用机器代替人来进行翻译，如Warren Weaver在1947年写给 Norbert Wiener 的信中就谈到了机器翻译的设想。
美苏冷战时期，为了情报工作需要，美苏双方都在努力开发机器翻译系统。当时的翻译方式基本上是一本词典加上若干人为规则。例如，IBM推出第一台翻译机器IBM-701,基于6条文法转换规则和250个单词，成功将约 60 句俄文自动翻译成英文。这一成就极大激发了机器翻译研究者的热情。
然而，人们很快发现人类的语言非常复杂，不是拿本词典就可以翻译的。1966年以后，失望情绪开始蔓延，此后十年机器翻译研究几乎停滞。
70年代后，受乔姆斯基生成语法理论的影响，人们开始探索理解型翻译，即首先对源语言句子做自下而上的语法解析，再基于得到的语法结构做自上而下的目标语言生成。尽管思路上很清晰，但人们还是发现实际语言太过复杂，很多时候难以解析，翻译更加无从谈起。基于规则的翻译方法走入死胡同。

基于统计的机器翻译方法

考虑到规则对人类语言的脆弱性，人们开始研究基于数据驱动的机器翻译模型。一个重大突破是基于短语的统计机器翻译模型（SMT）的诞生。
如右图所示，基于大量平行语料库，首先对源句和目标句中的短语进行对齐，由此学习不同语言短语间的对应词典。基于这一短语词典，并结合目标语言的语言模型，即可实现较为顺畅的翻译。
SMT依然保留了传统基于规则的翻译系统中关于词典和转换规则的概念，只不过这些词典和规则（语言模型）是通过数据学出来的，且具有概率意义，从而可处理语言的复杂性。

基于神经网络的机器翻译方法

2014年以来，以谷歌为代表的研究机构将深度学习引入机器翻译，称为神经机器翻译（NMT）。2018年，微软报告他们的中英机器翻译系统在WMT2017评测集上已经达到人类翻译员的水平。
和SMT不同，NMT中已经不再有规则的影子，不论是字典还是转换规则，都被实现在神经网络的连接权重中。这一根本变革使得系统结构变得更简单，学习能力也更强，同时也对数据提出了更高要求。

打破语言边界

从1947年Warren Weaver提出机器翻译的概念以来已经过去了70多年，现在NMT已经基本上可以满足主要语言之间的翻译需求了。然而，在小语种翻译任务上，NMT的性能还是差很远，打破语言边界的理想还没有完全实现。
近年来，人们研究了很多方法来解决这个问题，包括无监督学习方法，融合知识与数据的方法等。基于人类语言的共通性，可以预期未来机器翻译一定可以实现人类沟通无障碍的目标。

取自“http://index.cslt.org/mediawiki/index.php?title=教学参考-30&oldid=39050”