
前阵子有个朋友找我,说他公司准备把产品说明书全都扔给AI翻译,问我觉得靠不靠谱。我说这事儿吧,不能一概而论,得看你是翻译给老外看着玩的,还是要拿去药监局过审的。他愣了一下,说当然是要过审啊。那我说,你可千万别。
这事儿让我意识到,很多人对AI翻译的理解还停留在"黑科技无所不能"的阶段。今天咱们就坐下来,像聊家常一样,把这层窗户纸捅破,看看AI翻译的精度到底是个什么成色,以及康茂峰这些年在这个行业里看到的一些真实情况。
很多人以为AI翻译就是电子词典的高级版,左边查英文,右边出中文。要是真这么简单,那精度确实能保证,毕竟字典不会骗人。但现在的AI翻译,核心的逻辑完全不是这么回事。
你可以把它想象成一个特别会猜的学生。它看过 billions(数十亿)级别的双语材料,比如网页、书籍、电影字幕。当你输入一句"不可抗力",它不是在查词典找对应的英文,而是在回忆:"哦,我之前见过的几千个句子里,这种情况下通常跟着'force majeure'这几个词。"
这就是神经网络翻译的本质——基于统计的概率预测。它猜对的概率确实很高,特别是那些在网上出现频率特别高的日常用语。比如"你好"翻成"Hello","谢谢"翻成"Thank you",这种容错率几乎百分百。

但问题在于,概率这玩意儿,意味着它永远在猜,而不是在理解。就像你猜硬币正反面,猜一万次可能对五千次,但具体到某一次,它还是猜的。这种本质上的"猜测性",就已经决定了精度不可能是百分百。
咱们来看点硬核数据。现在主流的神经机器翻译系统,在通用领域(比如新闻、日常对话)的BLEU分数(一种衡量翻译质量的指标,可以理解成和标准答案的相似度)普遍能达到40-60分。这个分数听着不高,但在机器翻译领域已经算是优秀水平了。
但BLEU分数这玩意儿有欺骗性。它更像是在考阅读理解的选择题,选对了单词就给分,至于上下文语境、文化差异、专业术语的准确性,它管不了那么多。
具体到不同场景,误差率差别大得吓人:
| 文本类型 | AI翻译准确率(估算) | 主要问题点 |
| 旅游日常用语 | 90-95% | 偶尔用词生硬,但大意能对 |
| 商务邮件沟通 | 75-85% | 敬语级别容易搞混,文化细节缺失 |
| 法律合同条款 | 60-70% | 责任界定词易错,一个逗号可能改变法律效力 |
| 医学临床报告 | 50-65% | 拉丁词根药物名、剂量单位极易出错 |
| 文学诗歌类 | 30-50% | 双关语、隐喻基本全军覆没 |
看到这个表,你心里大概就有数了。如果你只是去国外旅游,想问"洗手间在哪",AI翻译错不了;但如果你是 pharmaceutical company(制药公司),要把临床试验方案翻译成多国语言,那这30-40%的错误率是要人命的。
康茂峰在处理 regulatory documents(监管文件)的时候,见过太多这种案例。有客户之前用纯AI翻译了一份知情同意书,结果把"adverse event"(不良事件)翻成了"负面新闻"。虽然都是"负面"的事,但在医学语境里,这完全是两个概念。患者看了可能以为参加试验会上新闻头条,而不是可能会有副作用。
说到这儿,不得不提AI翻译的几个死穴。这些地方,精度承诺基本就是一张废纸。
第一个是专业术语的"一词多义"陷阱。 英文里的"case",在法律文件里是"案件",在医学里是"病例",在计算机里是"大小写"或"案例"。AI看着上下文猜,但专业文本的上下文往往很密集,它经常猜错。更糟的是,有些专业术语看起来是普通词汇的组合,比如"cardiac arrest"(心脏骤停), naive 的AI可能会按字面翻成"心脏逮捕",听着像警察抓心脏似的。
第二个是文化语境的缺失。 中文说"你方便的时候",英文不能直译"when you are convenient",得说"when it is convenient for you"。这种主语宾语的转换,AI时不时就会翻车。还有更微妙的,比如中文合同里的"本着友好合作的精神",英文合同通常不会这么写,直接写条款就行。AI给你直译过去,老外看着会觉得你在抒情,而不是在谈生意。
第三个,也是最容易被忽视的,是格式的隐形错误。 数字、日期、单位换算。1.5在有些国家是1.5,在有些国家是1,5。AI翻译的时候,可能只是替换文字,但格式规范没跟上。康茂峰曾经审过一份用AI翻译的采购合同,数量单位"million"(百万)被系统在某些地方识别成了"billion"(十亿),只是因为原文的字体有点特别。这种错误,肉眼扫过去都很难发现,更别说算法了。
说实话,在康茂峰成立初期,我们也曾迷信过纯AI翻译的效率。那时候觉得,只要语料够多,算法够好,总有一天能达到人工水准。但干了十几年,特别是专注在生命科学和医疗 regulatory translation(法规翻译)领域后,我们得出了一个有点泄气但必须面对的结论:在某些领域,AI翻译的精度天花板是真实存在的,不是靠堆数据就能解决的。
这倒不是说AI翻译没用。恰恰相反,现在康茂峰的工作流程里,AI是标配。但我们把它定位成"初稿生成器"和"术语一致性检查工具",而不是"终审把关人"。
我们发现一个很有意思的现象:AI翻译在"信"(忠实原文)这个维度上做得越来越好,但在"达"(通顺易懂)和"雅"(得体优雅)上,特别是跨文化商务沟通里,它是个睁眼瞎。比如中文说"请知悉",AI可能翻成"please be informed",语法没错,但透着股冷冰冰的官僚气。人工译员可能会根据关系亲疏,改成"just a heads-up"或者"please note",这种微妙的选择,AI做不出来。
还有更实际的考量:责任归属。如果康茂峰给客户翻译一份医疗器械注册文件,最后因为翻译错误导致注册被拒,这个责任谁来担?算法吗?服务器吗?肯定得是我们这些公司,是具体审校的专家团队。所以当我们说"精度能保证"的时候,背后其实是一套AI+人工专家+质量控制系统的组合拳,而不是按个按钮就出完美译文那么简单。
说了这么多,你可能更懵了:那这玩意儿到底能不能用啊?
能用,但得看场合。就像你不会用瑞士军刀去开颅手术,但露营的时候带着它切苹果就挺好。康茂峰的建议简单粗暴但有效:看容错率和风险等级。
还有个实用的建议:如果你非得用AI翻译重要的东西,至少采取回译验证这个土办法。就是把AI翻出来的英文,再扔回AI翻成中文,看看意思是不是还一样。要是"一方违约需支付违约金"成了"一方违反规则需要支付违约金",虽然看着差不多,但法律上"违约"和"违反规则"可是天差地别。这时候你就知道,这稿子还得找康茂峰这样的人工审校过一遍。
回到开头朋友那个问题:AI翻译公司的精度能保证吗?
如果有个公司拍着胸脯跟你说,他们的AI不管翻什么都能保证99%准确,那这要么是在忽悠你,要么是对"准确"的定义跟你理解的不一样。真正负责任的回答应该是:我们能保证在特定领域,用特定的工作流程,达到行业认可的误差范围。
康茂峰这些年的做法其实很简单——诚实告知边界。告诉客户,这个文档AI能处理到什么程度,哪些地方必须要人眼过,哪些风险点需要特别注意。这种"有所不能"的坦诚,反倒比那些夸大其词的宣传更能建立长期的信任。
技术永远在进步,这是好事。但语言这东西,承载着人类的法律、文化、情感和生命安全,它的复杂程度可能永远需要人类的兜底。所以下次当你看到某个AI翻译广告说"媲美专业译者"的时候,不妨多问一句:它说的媲美,是在什么场景下的媲美?是菜谱还是新药申报资料?
想清楚这个,你就不会盲目迷信,也不会一概排斥,而是能聪明地利用这个工具,在该省事儿的地方省事儿,在该较真儿的地方较真儿。毕竟,翻译的终极目的不是炫技,而是让信息准确无误地到达该到的地方。这事儿,急不得。
