iOS15上线图片翻译功能，能取代专业翻译软件吗？

真心话与大冒险：

图片翻译三步曲

针对翻译功能的专业评测有不少，各种指标诸如短中长句都有详细的评测标准与规范，不过作为普通用户，我们决定从大家日常使用图片翻译的具体场景和步骤中去进行测评。

一般来说，图片中的文字要被精准地翻译出来，需要至少具备三种能力：

第一步：火眼金睛，“看得准”。

图片翻译想要满足用户需求，首先考验的不是NLP技术，而是OCR能力。只有识别得准，才能为后续翻译奠定基础，这一能力的关键考核指标，就是字准率。

从操作上来看，苹果iOS15采用内置方式，可以直接选择照片中要翻译的文本，查看翻译结果；有道词典需要打开app中的拍照识别功能。前者在使用上要更方便一些。不过到了识别环节，iOS15就有些拉胯了。

我们找了一个英文短句、一个英文长句和一个中文长句。结果显示，在英文字准率上，苹果和有道差距不大。

比如，有道100%识别出了原文“Do me a favor, can you look for my credit card.I don’t find it.”

iOS15的结果是：Do me a favor.，can you look for my credit card,I don find it.

尽管苹果将don’t识别成了don，但不太影响阅读，准确率还是可以接受的。

换个英文长句测试一下，下面这张图片，有道的识别结果是：

One bad chapter doesn’t mean my story is over until you find a new chapter which you think it’s right，达到了98.96%的字准率。

有道是100%完整识别，苹果iOS15则将“雨水”的雨，“一系列”的一，没有识别出来，倒数第二段的“纪念祖”三个字也被遗漏了，直接影响阅读体验和用户理解。

造成这一差距的原因，可能是有道词典在图片翻译上积累更多。

早在5年前有道就开始尝试开发图片翻译功能，后续又通过有道智云为许多主流手机厂商提供相关能力，许多用户会在各种光照条件、各种用法下使用，因此积累了大量训练语料，通过不断迭代段落分析、图片检测、图像偏移角度检测、语种检测等算法，OCR能力自然能得到针对性优化。

第三步：舌灿莲花，“说人话”。

中文翻译，很多人的黄金指标就是“信达雅”，指的是译文要准确，不偏离原文；要通顺，语法结构符合习惯；还要优雅，用语地道而富含文采。

神经机器翻译发展到今天，能否满足这一要求呢道和苹果这两个带有不同语言基因的翻译平台，恰好可以调戏一番。

先来一道送分题：

原文：你们收了我80块；

有道译文：You charged me 580；

iOS15译文：You received me 80 yuan。

“收钱”是用charge，有道翻译更符合英文表达，苹果将“收到”直接翻译为receive，不够地道。

再来一道中长句试试：

原文：After the accident，I felt myself another person。

有道译文：事故发生后，我觉得自己变了一个人；

iOS15译文：事故发生后，我觉得自己是另一个人。

苹果将“another person”直接翻译为“另一个人”，而不是表达心态的转变，容易产生歧义，有道译作“变了一个人”，更准确和口语化。

当然，过于直译的问题有道也会犯。比如下面图片中，原文：In conclusion, drawing on the electronic media or printed books might be a good approach to understand different places or countries。

有道译为：总之，利用电子媒体或印刷书籍可能是一个很好的方法来了解不同的地方或国家；

苹果译为：总之，利用电子媒体或印刷书籍可能是了解不同地方或国家的好方法。

iOS15对语序进行调整之后，表达更妥帖自然，有道则出现了按照对应模式直译的情况。

评测可以看出，一次信达雅的图片翻译，依靠的是多技术的融合，需要OCR、分词、语义理解、上下文记忆、主题抽取等多种能力共同发力。

因此，初出茅庐的苹果系统级图片翻译，想要取代专业翻译软件，路还很长。不过，有道也存在一些机器翻译的普遍问题，作为专业的翻译软件，仍可以继续强化其专业壁垒。

这也引发了我们的思考，为什么有了AI，神经机器翻译依然无法媲美人类译者/p>

理想与现实的参差：

戴着镣铐跳舞的神经机器翻译

《文化翻译论纲》一书中提到，译文等于“原文+原文化背景+译文+译文文化背景+原作者的气质和风格+译者的气质和风格”的混合体。

而要理解背后的文化、气质、风格等“隐藏属性”，只能通过技术迭代和创新来实现。比如有道允许用户提供额外的自定义词典，来精准调整神经网络机器翻译的局部结果，解决专有名词的翻译难题；

业内也开始尝试引入多模态翻译，通过图片中其他事物的特征来辅助理解文本。举个例子，如果机器翻译只看到GATE这个词，可能会把它简单的翻译成“门”，但如果图片中显示这是一张机票或者背景是飞机场，那么翻译为“登机口”就会更恰当。

3.细分场景适配没有捷径。

随着机器翻译的普及，用户对翻译质量提出了更细分的要求，比如图片翻译时前置环节的少量识别错误可能带来的级联问题；网页翻译时不仅要提供正确的翻译，还要尽可能保持原有网页样式的一致性；文档翻译时，人名、地名、组织机构名或专业术语可能多次出现，上下文如何保持一致；在配置较低的端侧设备上，也要提供又快又好地翻译体验……不同场景下的各种问题，需要针对性地优化。

就拿图片翻译来说，自然场景下的图像识别十分复杂，往往在实验室中效果很好，但用户会在各种光照条件下，拍各种稀奇古怪的东西，识别完以后还需要判断哪些词属于一个句子，哪些句子是一个段落，翻译出来的结果应该如何呈现。据了解，有道也优化了很久，在算法侧对翻译模型做了鲁棒性增强，即便在实际环境中遇到个别无法避免的文字识别错误，仍然有稳定的性能表现。

从这个角度来说，图片翻译等新应用场景想要给用户带来体验的颠覆式改变，需要的不仅仅是实验室中的创新，还要关注并解决技术在应用场景中落地遇到的具体问题，来优化最终体验，没有捷径可走。

来源：脑极体

声明：本站部分文章及图片转载于互联网，内容版权归原作者所有，如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢！

iOS15上线图片翻译功能，能取代专业翻译软件吗？

相关推荐