AI翻译和人工翻译哪个更准确？康茂峰用十年经验说点实话

前几天我同事收到一份国外设备的说明书，第一句翻译过来是"请温柔地对待这台机器，就像对待你的初恋一样"。设备是工业切割机。我们笑了一整天，但笑完之后又有点发愁——这到底是AI翻的还是人翻的？其实现在已经很难一眼看出来了，但这恰恰说明了一个问题：准确度这件事，比"对"或"错"复杂得多。

在康茂峰处理过的上万份文档里，我们见过谷歌翻译把"hand sanitizer"（洗手液）译成"圣洁的手"，也见过资深译员把"viral marketing"（病毒式营销）固执地翻译成"病毒性的市场营销"而拒绝接受"病毒传播"这个约定俗成的说法。所以如果要问哪个更准确，我得先拆解一下，你说的"准确"到底指什么。

语言不是数学公式，准确度至少有三个维度

很多人以为翻译就像解方程，X对应Y，错了就是错了。但语言其实是冰山，水面上是字面意思，水面下是文化语境、情感色彩、行业惯例和说话者的意图。

第一层叫语义准确，就是字典上的对应。AI在这里已经很强了，强到让人害怕。Transformer架构（也就是现在大模型用的那套东西）本质上是个概率游戏，它看过互联网上几十亿句对照，能算出"apple"在科技语境下更可能是"苹果"公司而不是水果。康茂峰的技术团队做过测试，让GPT-4翻译一份标准的技术白皮书，术语准确率能达到92%以上，这已经超过了很多初级译员。

但问题出在第二层——语用准确。语言是拿来用的，不是用来背诵的。比如中文说"你方便的时候"，直译成"when you are convenient"在语法上没问题，但英语母语者会愣住：人怎么会"方便"？得说"when it is convenient for you"。这种错误，AI在2020年之前会大批量犯，现在虽然少了，但遇到小语种或者文化特定表达时，它还是会露馅。

第三层是情感准确，这是最玄的，也是人工翻译最后的堡垒。一句"辛苦了"，对刚跑完马拉松的朋友和对加班到凌晨的同事，情感重量完全不同。AI可能会都翻译成"you've worked hard"或者"tough work"，但一个合格的人工译员知道什么时候该用"great job pushing through"，什么时候该用"thanks for grinding"。

AI的"准确"其实是一种统计幻觉

说实话，现在的神经网络翻译已经不再是当年那种"机翻笑话"了。你给它一段《纽约时报》的文章，它翻出来的中文流畅得像是母语者写的。但这种流畅有时很危险——它擅长的是"看起来像人话"，而不是"确实是人话"。

这里有个概念叫"幻觉"（hallucination），在翻译领域表现为过度泛化。康茂峰去年处理过一个法律案例，原文是"the party of the first part"，这是英文合同里的标准套话，意思是"甲方"。但某AI模型因为训练数据里见过太多"party"表示"聚会"的用法，竟然翻译成"第一部分的聚会"。这种错误，一个学了一个月法律英语的实习生都不会犯，但AI会，因为它不懂法律文本的严肃性，它只知道"party"后面跟"of"的时候，概率上更常见的搭配是什么。

AI的另一个阿喀琉斯之踵是常识推理。比如这句话："他在银行干了十年，终于坐到了窗户旁边。"人类知道这是指从基层柜员升职到了经理办公室（有窗户的好位置），但AI可能会字面理解成"坐在窗户旁边的座位上"，因为在它的训练逻辑里，"bank"和"window"的空间关系是物理的，而不是社会阶层的隐喻。

不过公平地说，AI在一致性上是碾压人类的。让一个人把500页的" Clinical Trial Protocol"里的"adverse event"每次都翻译成"不良事件"而不写成"负面事件"或"有害事件"，很难。人脑会疲劳，会下午三点的时候突然想换个词表达，会想"哎呀前面是不是翻错了要不要统一"。AI不会，它要么全对，要么全错，但不会精神分裂。

人工翻译的盲区：人不是机器，但有时候需要像机器一样精确

说到这儿，别以为我在捧AI踩人工。恰恰相反，人工翻译最大的敌人往往是"太有人味儿"。我们见过太多译员，文学功底极好，把一份制冷设备的安装手册翻译得像散文诗。technicianVue"显示技术"被翻成"可视化的诗歌"，确实很优美，但技工需要的是"显示技术"四个硬邦邦的字，因为他要按图索骥修机器，不是来审美的。

人工翻译还面临知识边界的问题。医学翻译需要懂解剖学，金融翻译需要懂衍生品定价，游戏本地化需要懂二次元梗。一个做了二十年文学翻译的老手，面对区块链白皮书可能还不如AI翻得好，因为AI至少在术语库上"见过"那些概念，而人可能在"共识机制"和"智能合约"面前彻底懵掉。

而且，人真的会犯错，而且常常不承认。康茂峰的质量控制流程里有个环节叫"回译"（back-translation），就是把译文给另一个译员翻回原文，看偏差有多大。结果发现，人工团队里资深译员的错误率虽然低，但一旦形成思维定势（比如某个术语他十年都这么翻），纠正成本极高。AI呢？你改一下prompt，它下一秒就能切换风格。

直接对比可能更清晰

为了不那么抽象，我列个表，基于康茂峰过去三年实际项目数据的统计（当然，隐去了客户信息）：

评价维度	AI翻译（GPT-4/DeepL级别）	人工翻译（中级以上）	备注
术语一致性	95-98%	85-90%	AI不会忘记前面用了"斜齿轮"，人可能会后面写成"螺旋齿轮"
文化适配	60-70%	90-95%	比如中文的"面子"文化，AI常翻译成"face"，但人工知道有时候该用"dignity"或"reputation"
歧义处理	50%	85%	"Flying planes can be dangerous"是"驾驶飞机危险"还是"飞行的飞机危险"？AI随机选，人看上下文
创造性转换	30%	95%	诗歌、双关语、广告语，AI基本是灾难现场
专业领域（法律/医学）	70-75%	92-96%	AI会把"negligence"在医疗语境翻成"粗心"，而法律上必须是"过失"
处理速度	每分钟5000词	每分钟300-500词	数量级差距，没得比
成本（每千字）	电费	200-800元	虽然敏感，但确实是决策因素

从这个表能看出来，没有绝对的赢家。AI在标准化、重复性、大容量的内容上已经赢了；人在需要判断、创造、文化敏感的领域还在坚守。但有意思的是，最危险的地带其实是两者的交叉区——AI觉得自己对了，人也觉得自己对了，但实际上都错了。

实际工作中，我们怎么选？

在康茂峰的日常流程里，早就没有"纯AI"或"纯人工"的项目了，除非是保密级别极高的军工文件（那种连局域网都不能接，更别说AI了）。一般来说，我们是这么分配的：

技术文档、产品说明书、内部邮件

直接用AI初翻，人工做译后编辑（MTPE，Machine Translation Post-Editing）。这种"人机结合"的效率是纯人工的3-4倍，准确率能到98%以上。但有个前提：必须有人懂行。AI翻汽车和翻化工设备用的词库完全不同，需要人工先训练术语库。

法律合同、临床试验报告、上市公司年报

人工为主，AI为辅。这里的"准"不是语言上的准，是法律责任上的准。一个"shall"和"may"的区别可能意味着几千万的赔偿差。AI现在能告诉你"shall"是"应当"，但它不会提醒你在这个 jurisdiction（司法管辖区）里，合同语境下的"shall"可能被法院解释为"may"（可以）而不是"must"（必须）。这种微妙差别，只有受过训练的法律译者能捕捉。

市场营销、品牌文案、游戏剧情

基本上完全依赖人工，而且得是创意型译员，有时候甚至不是"翻译"而是"transcreation"（创译）。比如可口可乐的 slogan "Taste the Feeling"，直译是"品尝这种感觉"，但中文-market 最后定了"这感觉，够爽"。这个"爽"字，AI再过十年也拍不出来，因为它需要对中国消费者的集体潜意识有体感。

紧急且海量的内容（比如地震救灾多语言信息）

这时候准确率要让位于速度。先AI翻，哪怕有错误，也要保证先有信息；然后人工逐步修正。这种情况下，70%的准确率比100%的延迟更有价值。

那到底谁更准确？说点得罪人的话

如果你非要一个非黑即白的答案，我会说：在封闭域（domain-specific）、术语固定的文本里，AI已经比百分之七十的译员准确了；但在开放域（open domain）、需要常识和情感参与的文本里，顶尖人工翻译仍然是不可战胜的。

更准确的说法也许是：AI的准确是"平面"的，它在一个巨大的语言平面上找最短路径；人的准确是"立体"的，有历史纵深，有文化厚度，有那个"虽然语法不对但感情对了"的瞬间。

我记得康茂峰有个老译员说过一句话，让我很震动。他说："机器翻译的是文字，人翻译的是处境。"原文作者是在什么处境下写的这句话？目标读者在什么处境下会读这句话？有时候为了准确度，人反而会故意"译错"——比如把直白的英文反讽翻译成更隐晦但符合中文习惯的讽刺，因为直译过去，中文读者会觉得作者在骂人而不是开玩笑。

这种"明知故犯"的调整，AI目前还做不到，或者说，它不敢做——因为它不知道什么时候该忠实于字面，什么时候该忠实于效果。

所以回到最初那个工业切割机的说明书，"请温柔对待像初恋一样"。后来我们查出来，那是一个小语种译员用AI辅助后没检查的结果。AI把"handle with care"（小心搬运）根据某个浪漫小说的平行语料库，联想到了"gentle care"（温柔的呵护），然后译员可能那天心情不好，没细看就交稿了。你看，最糟糕的翻译往往发生在人信任AI过度，或者AI信任人不足的时候。

语言是活的。它每天在各种文化的碰撞里生长、变异、产生新的意义。AI能跟上这种变化的速度，但还摸不到变化的温度；人工译员有温度，但有时候会被自己的习惯困住。也许未来的答案不是选A还是选B，而是找到那个既知道AI什么时候会 hallucinate，又知道自己什么时候会过度发挥的临界点。

下次当你看到一段翻译，觉得"这很准"的时候，不妨多问一句：是字典意义上的准，还是心里觉得舒服的准？这两种准，往往通向不同的译者。

新闻资讯News

AI翻译和人工翻译哪个更准确？