介绍

Wayfair销售在美国(Wayfair.com),加拿大(Wayfair.ca),英国(Wayfair.co.uk)和德国(Wayfair.de)的产品,并与来自几个国家的制造商合作。因此,业务正在以多种语言进行。当我们的供应商以不同语言提交的产品数据而不是销售产品的市场时,我们将内容翻译为当地语言。例如,如果英国供应商在英国英语中提交数据,并且产品在Wayfair英国和德国商店销售,我们将在Wayfair.de上翻译文本。

鉴于我们目前的国际市场,我们主要将产品内容从美国英语翻译成加拿大法国语,英国英语到德语,以及英国英语。但是,从长远来看,我们可能需要从多种附加语言转换为多种其他语言。因此,产品翻译的相关性只会随着公司扩展到新市场而增长。

产品翻译通过混合人和机器翻译来进行。人类翻译的内容是保证的高质量,但自然比机器翻译的内容更昂贵。我们的目标是使用Data Science来实现Wayfair的产品翻译,通过使用更多机器翻译最大限度地节省,同时最大限度地减少在现场显示不良翻译的风险。但我们如何知道机器翻译是否以可扩展和成本效益的方式良好或坏?本文介绍了如何通过使用基于的质量估计模型来解决此问题的情况OpenKiwi.算法评估机器翻译质量。

动机

机器翻译质量传统上以下列方式在Wayfair中评估:

  1. 人为判断:人类读取机器翻译并提供质量评级(例如,1-4质量分数,1是最好的4个最坏的4)
  2. 自动化机器翻译指标:这些是算法分数,帮助我们了解如何通过量化它们的对应方式“关闭”机器翻译。图2中解释的翻译编辑率(ter)度量。图1是与当前博客文本相关的这些示例。

图1.翻译编辑率:定义和示例[1]

上述质量评估方法非常有效,但问题表明,两者都需要人类参与过程,无论是直接提供质量评级还是创建参考翻译,以比较,这是时间密集的(和昂贵的。)为了以可扩展有效的方式评估质量,我们需要一个能够评估机器翻译是否好或不好的系统,而无需一个人参与过程。幸运的是,质量估算领域来到了这个问题的救援。

质量估计的目标是评估机器翻译系统的质量,而无需进入人类投入。质量估计可以在几个粒度粒度下进行,以下内容与此博客文章相关:

  • 单词级别:在机器翻译中为每个令牌(即,单词之间的单词和差距)分配质量标签(确定或坏)。
  • 句子级:预测完整机器翻译句子的质量,通常通过估计诸如TER等总分或从单词级质量预测中诱导句子级分数。

图2.单词和句子级质量估计任务

质量估算是一个很好的研究领域,我们在Wayfair使用的实施是OpenKiwi.,最先进的开源框架作为基于Pytorch的bob网下载包装。

翻译工作流程改进

直到最近,航空航运会的产品翻译遵循了一个“所有人类”或“所有机器”的翻译方法,或者简单的业务规则,这些商业规则将帮助我们决定哪种产品具有高优先级和所需的高质量人类翻译与低优先级,并且可以然后左转机翻译。一个简单的业务规则的一个例子是高度访问的产品总是由人类翻译,而是可以通过机器翻译出来的物品。

图3:基于业务规则的翻译工作流程为Wayfair产品

随着算法算法的翻译质量估计模型,当机器翻译好坏时,我们将能够在我们的目录中扩展机器翻译的使用,同时最大限度地减少现场显示低质量翻译的风险。Given a certain product and a machine translation associated to it, the quality estimation model will signal if the translation is of good enough quality and ready to be shown on our store, or if it’s not up to the accepted standards and thus needs to be checked and corrected by a human.

图4:基于质量估计模型的翻译工作流程的视觉

通过Openkiwi介绍质量估算

Wayfair中使用的翻译质量估算模型是基于OpenKiwi.,是机器翻译会议的胜利系统的开源实现2015-18字和句子级任务对质量估算。包含在基于Pytorch的软件包中,我们可以找到以下3个系统或子模型,均包含深度学习架构:

  • 从头开始质量估计(quetch)
  • 神经质量估计(NUQE)
  • 预测估计器(预先)

要了解有关Openkiwi和这3个潜水机的更多信息,请查看其创造者的全文[2]。

下面,我们将简要介绍基于[2]和[3]的Quetch架构的简要介绍,以进一步了解神经网络系统如何解决单词级质量估计任务。Quetch是一个简单的模型,由多层erceptron(MLP)组成。输入功能由原始语言中的源句子,目标语言中的机器翻译,以及每个句子对的源翻译字对齐(我们使用IBM2统计模型生成对齐,在Wayfair数据上培训加上外部语料库在源文本和翻译中找到单词之间的对应关系)。Word级任务的预测输出包括机器翻译中每个令牌的OK / Bad标签。

鉴于源句和其机器翻译,Quetch的深度学习架构如图5所示。如图5所示:

  1. 输入层:对于目标机器翻译中的每个位置,围绕该位置的窗口和从源文本的对齐单词的窗口表示的窗口被连接并提供为输入。
  2. 隐藏层
    1. 查找表层:串联输入中的每个单词由查找表矩阵中的预先训练的单词向量表示m。然后将所有相应的单词嵌入式连接到单个向量中。矩阵m用字词中的所有单词的Word2Vec表示初始化,并在培训期间继续进行优化。
    2. 线性层+非线性变换:适用一个塔尼非线性
  3. 输出层:在机器翻译中的每个令牌评分OK /不良概率

图5:quetch架构[3]

通过对培训数据通过背传播和随机梯度下降[2]来验证该模型。

NUQE [2],[4]具有类似的架构Quetch,因为它还包含一个查找表图层,它将嵌入式分配给源文本中的目标单词及其对齐的单词。单词向量被连接,然后馈入一组前馈和双向门控复发单元(GRU)层。最后,输出层应用SoftMax激活,估计OK /坏的概率。

Predictor-Estimator [2], [5] has a completely different architecture, and actually consists of two models: a predictor, trained to predict the target translation’s tokens given the source, and an estimator, which classifies each word in the machine translation as OK or BAD using features produced by the predictor. Both the predictor and estimator models are mainly based on a set of Long Short-Term Memory (LSTM) layers.

在Wayfair使用OpenKiwi

我们使用Wayfair数据培训了Quetch,NuQE和Predictor-Erustor,该数据要求我们提取和/或生成图6中列出的功能和标签。我们另外生成了一个平均3个子模型的单词级预测的集合模型。然而,当我们想要在需要时,句子级预测与我们的潜在错误的机器翻译的标记更加相关,以便在需要时执行人类升级。因此,我们诱导了通过平均词级集合预测来决策的句子级分数。

图6:OpenKiWi子模型的输入功能和预测输出

我们的培训数据有局限性,因为OpenKiWi子模型是根据机器翻译和他们的人机后期版本之间的比较而设计的,但是在Wayfair数据库中提供的大多数人翻译是从没有翻译的转换器中创建的。这使我们能够高估不良翻译,因为我们目前正在使用的人金标准可能并不总是相对反映机器翻译的质量。

例如,给定源句子,它的机器和人类翻译可能在没有机器翻译的情况下没有共同的话,实际上是错误的。此外,人类翻译人员可以添加创造性的描述或变化,这将在与机器翻译相比时会影响编辑距离,而不必反映机器翻译质量。

图7:低估的差异的示例。人类和机器翻译(MT)几乎没有共同的单词,因此翻译编辑率(TER)即使是MT是直接和正确的来源的正确翻译

Wayfair翻译已经开始迁移到机器翻译后编辑工作流程,其中转换器将首先看到一个启动机器翻译,然后执行将其转换为人类理解和流利的句子的最小编辑次数。这将使我们的培训数据更好,并帮助我们克服目前存在的偏见。此外,在等待更多数量的后编辑翻译时,我们定期校准当前的质量预测与人类判断,并在贸易中根据需要创建一套风险案例储蓄和质量之间的-off。

下一步

到目前为止,我们已经开始基于OpenKiWi实现一个翻译质量估算模型。自然的下一步将改善模型预测,随着更多的编辑后的数据可用,将质量估计模型扩展到未来语言对,并继续研究进一步的质量估算方法,这些方法将有助于我们以允许的方式利用机器翻译我们保护我们网站上的内容质量。

参考资料

[1] Matthew Snover,Bonnie Dorr,Richard Schwartz,Linnea Micciulla和John Makhoul,(2016)。对目标人体注释的翻译编辑率研究

[2] Fabio Kepler,JonayTrénous,Marcos Treviso,Miguel Vera和AndréMartins。2019年。OpenKiWi:质量估算bob网下载的开源框架

[3] Julia Kreutzer,Shigehiko Schamoni和Stefan Riezler。2015年。从头划痕(Quetch)的质量估计:深度学习词级翻译质量估算

[4] Andre F.T. Martins,Ramon Astudillo,Chris Hokamp和Fabio Bepler。2016年。Unbabel参与WMT16 Word级翻译质量估计共享任务

[5] Hyun Kim,Jong-Hyeok Lee和Seung-Hoon Na。2017年。使用多级任务学习的预测测量器估算器与堆栈传播进行神经质量估计