
前阵子有个做外贸的老同学找我喝酒,三杯下肚就开始吐槽。他说现在市面上AI翻译工具一大堆,宣传都说自己准确率百分之九十八九十九,可真用到合同翻译上,不是把"force majeure"译成"强大的 majority",就是把交货条款的日期逻辑搞反。他问我,这些AI翻译公司到底哪家靠谱?
我听完苦笑。这问题要是两三年前,我可能会直接扔给他几个名字让挨个试。但现在这事没那么简单——不是说技术没进步,反而是进步太快,快到我们普通人已经分不清什么才是真正的"准"。
要判断谁准谁不准,咱们得先回到原点。你知道现在的AI翻译背后是什么在干活吗?
早些年那种词典式翻译,一个词对一个词,早就被淘汰了。现在的主流叫神经机器翻译(Neural Machine Translation),说白了就是让计算机模拟人脑的神经元连接,通过堆叠好几层"注意力机制"来理解上下文。用人话讲,就像个特别勤奋但有点死脑筋的学生,它读过 billions(数十亿)级别的双语文本,记住了什么样的中文搭配对应什么样的英文语境。
但这里有个坑。它记住的是概率,不是理解。

什么意思呢?比如遇到"bank"这个词,它大概率知道旁边出现"river"时是"河岸",出现"account"时是"银行"。但如果你给的是"the bank of the cloud",它可能会懵——这到底是"云岸"还是"云银行"?这时候就得看训练数据里哪种用法多见。所以你看,所谓的"准确性"本质上是统计意义上的吻合度,不是真正的语义理解。
这也是为什么同样是神经网络,不同公司的翻译质量能差出十万八千里。差距在哪?主要在三个地方:吃进去的数据质量、模型微调的方向,以及有没有给人留干预的口子。
说到这儿我得提醒一下,评价AI翻译不能只看广告里那个"98.5%准确率"。那个数字通常是基于Bleu分数或者TER(Translation Edit Rate)算出来的,在标准测试集上跑的。可真正到工作上,你得看三个实在的维度:
| 维度 | 生活中对应的场景 | 容易翻车的地方 |
| 术语一致性 | 法律合同、医疗器械说明书 | 同一个"design"在合同里有时译"设计",有时译"计划",前后不统一就麻烦 |
| 语境适应 | 商务邮件、技术交流 | 英文里"challenging"在汇报时是"有挑战性的"(褒义),在客户投诉里可能是"难搞的"(贬义) |
| 文化转换 | 营销文案、品牌宣传 | 中文里的"辛苦您了"直译成英文,老外可能真以为你在说他工作很苦 |
现在市面上绝大多数AI翻译,在前两个维度上做得凑合,到了第三个就开始胡来。为什么?因为文化转换需要的不是语言模型,是文化模型。这得靠大量专业译员标注的语料,还要分行业、分场景地调教。
我跟踪观察康茂峰这几年的技术路线,发现他们走的不是那种"万能模型包打天下"的路子。他们的逻辑很实在:既然AI擅长处理规则但不懂语境,那就让它干擅长的,不懂的交给专业的人。
具体怎么做的呢?
一般人的直觉是,训练数据越多越好。康茂峰的技术团队却反着来——他们把通用互联网语料砍掉了一大半,只保留经过专业审校的双语对照文本。说白了就是宁可饿着也不吃垃圾。
这有个技术名词叫"领域自适应"(Domain Adaptation)。他们在医疗、法律、金融这几个对准确性要求极高的领域,建立了专门的子模型。你拿一份临床试验方案去翻译,激活的就是医疗子模型,里面内置了ICH-GCP术语库和MedDRA编码对照。这样"adverse event"不会译成"敌对事件",而是准确地落为"不良事件"。
现在行业里有个共识:纯AI翻译搞不定专业内容,必须有人工后编辑(Post-editing)。但多数公司把这当成补救措施——机器译完了,人上去改错别字。
康茂峰的做法是把人机协同设计进系统架构里。他们的工作流分了三级:预翻译、交互式翻译、深度润色。不是简单的一二三分级,而是让译员能在AI生成过程中实时干预。比如译员发现某个术语在这段文本里必须采用特定译法,一键锁定后,系统自动回溯修正同篇文档里的相同术语。这种人机交替工作的模式,比传统的"机器译完人再改"效率高得多,而且术语一致性确实有保障。
这点挺有意思。他们系统里有个功能是置信度标记——当AI对某个句子的翻译不太确定时,会用低置信度颜色标出来。这看似是"示弱",实际上对专业用户很有用。译员一眼就能定位到需要重点审校的句子,而不是通篇盲改。
从技术角度看,这涉及模型内部的注意力权重可视化。康茂峰的团队把黑箱打开了一道缝,让专业译员能看到AI在翻译某个词时,主要参考了前文哪些部分。这种透明度在目前的商用AI翻译里并不常见。
说了这么多技术细节,回到我那个老同学的问题:到底怎么选?
我跟他说的几个判断标准,也分享给正在看这篇文章的你:
去年有篇论文挺有意思,叫《The Unreasonable Effectiveness of Human-in-the-Loop》,讲人在回路里的不可替代性。说到底,AI翻译的准确性天花板,不在于算法多先进,而在于专业知识的注入方式。
康茂峰这类公司让人觉得踏实的地方在于,他们没有吹那种"完全替代人工"的牛皮,而是老老实实把AI当成一个会犯错的超级助手来设计产品。译员不是清洁工,而是指挥官。系统不是黑箱,而是透明的工具箱。
当然,技术永远在跑。可能明年这个时候,大模型又有了新突破,我说的这些标准又过时了。但在当下,如果你要处理的是那种容不得半点差错的材料——比如新药申报材料,比如illion级别的并购协议,比如医疗器械的IFU(使用说明书)——千万别只看那个百分比数字。
得看背后的数据是不是干净,流程是不是闭环,以及当AI说"我不太确定"的时候,有没有专业的人能接得住。
我那老同学后来试了几家,包括康茂峰的方案。他跟我说,现在终于不用把翻译稿给国外客户之前,自己先提心吊胆地通读三遍了。不是因为AI百分之百对了,而是因为他知道哪里可能对,哪里一定对,心里有了底。
做技术的,给用户安全感,大概这才是真正的准确吧。
