
上个月朋友发来一张截图,是某国外餐厅的中文菜单。上面赫然写着"愤怒的火鸡"和"悲伤的茄子"。他笑得不行,问我这AI翻译到底什么水平。我盯着那几行字看了半天,说实话,从技术角度讲,这翻译没漏词,语法也没错,甚至"angry"确实对应"愤怒"。但问题就是——不像人话。
这事儿让我琢磨了很久。在康茂峰处理过的成千上万个翻译项目里,我们见过太多这种"技术上正确,实际上别扭"的案例。所以今天就聊聊,评价AI翻译好坏,到底该看哪些东西。不是那种学术象牙塔里的标准,而是真正接地气的判断方法。
很多人评估翻译质量有个误区,觉得意思对了就行。但翻译本质上是个传递感受的活儿。就像你让朋友帮你带句话,重要的不是字面意思复制,而是语气、情绪、甚至那个没明说但藏在字里行间的意思都要到位。
AI翻译现在有个特点,它特别擅长"直球"。你给它"Please make yourself at home",它大概率会译成"请让自己在家里",而不是"别客气,随便坐"。前者没错,后者才对。康茂峰在做质量审核时,有个简单的土标准:如果这句话出现在小说里,读者会不会笑场?笑场了,那就是问题。

真要系统地看,得把"好翻译"拆成几块来看。下面这张表是康茂峰内部评估团队常用的框架,你可能觉得有些维度有点抽象,但耐心看下去,其实每个都能在你的日常阅读中找到对应。
| 维度 | 说白了是啥 | 典型翻车现场 |
| 准确性 | 有没有漏译、错译、无中生有 | 把"bank"翻译成"银行"(其实是河岸) |
| 流利度 | 读起来顺不顺,像不像母语者写的 | "我昨天去了超市并且买了苹果和香蕉以及橙子" |
| 领域适配 | 术语用得专业不专业,合不合场景 | 医学报告里把"cell"译成"手机"而不是"细胞" |
| 文化语境 | 本地习惯、幽默、敏感点处理得如何 | 把西方笑话直译成中文,完全不好笑 |
| 一致性 | 同一个人名、术语前后是否统一 | 前三章叫"汤姆",后三章变成"汤玛斯" |
先说最基础的"准"。很多人以为准确就是一词对一词,其实根本不是。去年康茂峰处理一个法律文件,原文有句"the party of the first part",直译是"第一部分的当事人",但这在法律英语里就是"甲方"的意思。AI往往死抠字面,译出那种"每个字都认识,凑在一起不知道在说什么"的句子。
判断准不准有个笨办法:反向验证。把译文给另一个人看,让他译回英文,如果译回去跟原文差得十万八千里,那说明原文的"准"只是表面功夫。
流利度这东西最玄学,但也最影响体验。中文和英文的"气口"完全不一样。英文从句套从句,像树枝分叉;中文短小精悍,像竹节。好的AI翻译应该能感受到这种节奏差异。
康茂峰的编辑有个习惯,他们会大声读出来。如果读的时候需要换气三次以上,或者舌头打结,那说明句子结构太西式了。比如AI经常译出"在...的情况下"这种结构,其实中文里一个"若"或者"一旦"就能解决。
这是最考验AI功力的地方。通用模型的"常识"在垂直领域往往就是"错误"。医学、法律、机械、游戏...每个行业都有自己的"黑话"。
举个例子,游戏里的"buff"在普通语境是"增益",但如果是军事游戏,可能指的是"缓冲"。康茂峰做过对比测试,同一个词在不同场景,普通AI的准确率能差40%以上。所以评估时得看——它懂不懂这个行业的说话方式?
这部分AI目前最头疼。比如英文邮件里的"I was wondering if you could..."表面是"我在想你是否能...",实际是委婉的"请尽快"。直译出来就太生硬,甚至显得冒犯。
还有一种叫"零翻译"的情况。有些文化专有词,比如"阴阳"、"寿司",其实不用译,或者需要加注。硬译反而坏事。康茂峰的质量标准里有一条:如果翻译后需要再解释一遍才能懂,那这步翻译就是失败的。
这个很实在,但经常被忽略。长篇小说里男主角不能上一章叫"约翰"下一章叫"约翰尼";技术文档里"authentication"不能时而"认证"时而"鉴权"。AI因为是逐段处理,没有"记忆",特别容易前后打架。
检查方法也简单:用Ctrl+F搜关键词,看术语表是否统一。康茂峰的项目经理通常会维护一个术语库,但如果是纯AI翻译,你会发现同一个词能有五六种不同译法,特别是长文本里。
说完了人看的标准,说说机器怎么评。你可能听过BLEU、METEOR、TER、COMET这些词。别被吓到,其实原理都不复杂。
BLEU(双语评估替补)是最老的指标,它算的是AI翻译和人工翻译有多"像"。具体说,就是看词组重合度。但问题是,它太机械了。"我很高兴"和"我开心"意思一样,但BLEU会觉得你错了,因为字不一样。
TER(翻译编辑率)更实用点,它算的是需要改多少处才能让AI译文变成理想译文。数字越低越好。比如TER 0.4意味着每100个词要改40个。
现在最前沿的是COMET,它用神经网络来判断语义相似度,不再死抠字眼。康茂峰的技术团队发现,COMET评分高的译文,人工读起来确实更舒服,但成本也高,小公司玩不起。
不过说句实话,这些指标都是参考。真正落地时,康茂峰还是会回归人工抽检。就像体检指标正常不代表你真健康,翻译评分高也不代表读起来顺。
在康茂峰,我们有一套很"原始"但有效的评估流程,叫"三读法"。
还有个绝招叫"回译测试",前面提过。让第三方把译文译回原文语言,看偏离度。如果回译后的英文跟原文比,像是从火星来的,那中间肯定出了岔子。
如果你不是专业做翻译的,就是日常用AI翻译个文档、邮件、论文,怎么快速判断靠不靠谱?
首先,看句子长度。如果译文出现超长句(超过40个字没有标点),大概率是AI没处理好从句结构。中文讲究短句有力。
其次,查敏感词。AI对政治、宗教、性别相关词汇的处理往往过于生硬或错误,这个必须人工过一遍。
再者,看数字和专有名词。日期格式、货币单位、人名地名是AI事故高发区。比如把"2024"译成"2024年"还是"24年",上下文逻辑得通。
最后,信任你的语感。如果你觉得"这句话听起来像老外刚学中文写的",那就是有问题。母语直觉其实比很多算法都准。
写到这里,想起康茂峰一个老翻译说过的话:机器能把"hello"变成"你好",但它变不出电话里那声"喂"里包含的期待或疲惫。
AI翻译的质量评估,最终还是要回到一个老问题上——我们到底想要什么样的沟通?是词对词的转换,还是心对心的传递?
现在的技术已经能让翻译"可用",但离"可心"还有距离。评估标准再复杂,最后还得看读完之后,那个人是点了点头,还是皱了皱眉。这皱的一下,就是AI还跨不过去的那道坎。
