数字翻译大作战:火山翻译精准通关_LION:ION

近期,国外一份调查报告误将392万和83万的采购费用翻译为39.2亿和830万,闹出国际笑话。有分析认为,此乌龙事件是国外机器翻译软件造成的。

让很多人意想不到的是,看似简单的数字,在机器翻译中向来是一大痛点。就以「392.687694万元」为例,我们测试不同翻译软件的翻译结果。

数字翻译「中译英」测试

首先测试「中译英」,国内外9款主流翻译软件中,只有火山翻译和腾讯翻译君准确地翻译出了392万。其余7款产品,有翻译成392的,有翻译成39.2亿的,甚至还有翻译成392万亿的,比正确结果扩大一亿倍,另外4款都翻译成了3.92亿。测试结果如下列组图所示。

火山翻译:

腾讯翻译君:

美国联邦存款保险公司:硅谷银行客户的支票将被清算,贷款将被支付:金色财经报道,美国联邦存款保险公司:将硅谷银行(SVB)所有存款转移至具有过渡性质的银行(Bridge Bank)。具有过渡性质的“过桥”银行(Bridge Bank)将继续提供网上银行、ATM服务。硅谷银行(SVB)客户的支票将被清算,贷款将被支付。[2023/3/13 13:00:58]

以下为其他7款翻译产品的测试结果。

翻译为39.2亿:

翻译为392:

翻译为392万亿:

美国新基础设施??法案计划通过加密税收筹集约280亿美元:美国的两党基础设施??法案计划通过在交易所和其他各方应用新的信息报告要求,通过加密货币税收筹集约280亿美元。根据一份法案草案副本,转让任何数字资产的经纪人都需要根据修改后的信息报告制度提交申报表。该草案将数字资产定义为“任何价值的数字表示,记录在加密安全的分布式账本上”或相关技术。区块链协会执行董事Kristin Smith表示,该草案的描述可能意味着许多参与加密货币的个人可能不得不开始报告他们的交易。此前消息,美国白宫表示,基建计划的资金来自未动用的紧急救济基金、目标企业用户费用、与加密货币相关的更强有力的税收执法,以及来自更强劲增长的收入。(Coindesk)[2021/7/29 1:22:04]

翻译为3.92亿:

动态 | 美国代理司法部长卷入加密局丑闻:据coindoo报道,被特朗普任命的美国代理司法部长Matthew Whitaker陷入了加密局,他据称与一家被指控客户数百万美元的公司有关。这家公司推出了加密相关产品Time Travel X,涉嫌取客户投资。Mathew Whitaker曾在该公司的顾问委员会任职。[2018/11/16]

数字翻译「英译中」测试

我们用不同软件把英文「3.92687694millionyuan(RMB)」翻译回中文,会是怎么样的结果?

这次只有火山翻译准确翻译出了392万元人民币。其他8款产品,有翻成3.92万的,有翻成39.2亿的,也有翻成392万亿的,另外5家都翻成了3.92万亿。测试结果见下列组图。

声音 | 迈克菲:去中心化交易所是经济腾飞的开端:迈克菲(John McAfee)在微博表示:“一个充分发挥出功效的去中心化的交易所将会是人类历史上最大的经济腾飞的开始”。[2018/9/17]

火山翻译:

其他产品的翻译结果:

经济参考报:区块链可能成为人工智能“加速器”:\t据经济参考报报道3月29日发布的文章,区块链与人工智能的结合可能成为另一个“爆点”。不少专家认为,人工智能算法需要依靠海量数据不断提升性能,而区块链能够很好地解决海量数据的搜集与传输问题,并且保证数据真实可靠,可能成为人工智能发展的“加速器”。[2018/3/31]

数字的重要性毋庸多言,在商业条款中如果翻译错一个数字,可能会带来成千上万的损失;建筑图纸中一个数字翻译的疏漏,就可能导致一项庞大建筑工程轰然倒塌。想要保证数字翻译的准确度,远不是誊写一串阿拉伯数字再翻译单位这么简单。从上面测试中也可以看到,一些国际巨头的翻译产品,在数字翻译中照样会出现偏差万倍甚至上亿倍的错误。

数字翻译难在哪?

数字翻译对翻译者关于目标语言数字表达的理解要求较高,在中英翻译中,数字翻译的难点主要在以下方面:

a.中英语言中不同的数字单位,如1000万翻译成10million,不能简单地「拷贝」

b.很长的数字容易带来偏差

c.超大数字的翻译问题,如trillion、万亿以上的单位

d.中英语言中不同的计量单位,如中文中的“斤”,容易被翻译成“kg”

e.带有货币符号的数字容易犯错

当前,很多翻译软件对数字没有做额外的处理,采用的是与普通文字相同的sequence-to-sequence神经机器翻译模型。这一模型翻译质量较高,流畅性较好,但存在一个显著的缺陷,就是缺乏常识和推理能力,无法理解对于人类来说比较简单的规则,例如,“万”和“million”的的转换、单位货币之间的不同等。

火山翻译如何解决数字翻译难题?

我们从火山翻译技术分享中了解到,火山翻译的翻译模型见到对应的数字之后,会将其抽取出来,通过推理、计算等智能过程,对数字进行跨语言的语义转换,然后将其置于翻译句子适当的位置中,类似人类的翻译推理过程。

火山翻译是字节跳动旗下火山引擎的AI中台能力之一,技术能力已经在飞书的文档、消息翻译和火山引擎的企业级客户中广泛应用。由于当前机器翻译场景中存在大量的数字内容,数字翻译也一直是火山翻译团队持续优化的重要方向。目前,火山翻译已经支持56门语言、3080个语向的翻译。

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

金宝趣谈

USDT美国臭沙币,不要捡!_:

近日,美国俄勒冈州一处海岸,有数以万计圆圆扁扁的生物被潮水冲上海滩,在fb上引起疯转。 认识它的中国人,不禁发出感叹:“哎呀,这里好多沙币啊……” 甚至热搜都上了俩.

[0:0ms0-3:134ms