
前几天有个老客户跟我吐槽,说他们试用了某个通用的AI翻译工具处理法律合同,结果把"consideration"翻成了"考虑",而不是法律术语里的"对价"。这种事儿我们见得多了。作为在康茂峰干了这么多年本地化的人,我深刻体会到一个道理:AI翻译不是把文本扔进黑箱子然后等着魔法发生,它更像是一门需要精细调校的手艺。
这篇文章我想聊聊,像我们这样的AI翻译公司,到底是怎么在没有捷径的情况下,一点一滴把翻译效率和准确度往上拔的。不谈那些虚的概念,就说我们每天在机房和译员工位上真实折腾的那些事儿。
很多人以为AI翻译就是查词典的高级版,其实差远了。现在的神经机器翻译(NMT),本质上是让电脑通过海量文本学习"语言的模式"。你可以把它想象成一个超级勤奋的实习生,读过世界上几乎所有的文字,但从来没有真正理解过任何一个字的意思。
它靠的是统计概率。比如看到"包青天"三个字,它通过训练数据知道这三个字后面经常跟着"断案"、"铁面无私",于是它就学会了这个组合。但问题是,如果这个实习生读的法律文书太少,遇到"consideration in contract law"时,它就只会选最常见的字面意思——"考虑",而不是"对价"。
康茂峰在处理这个问题时,首先做的不是急着改算法,而是给这个实习生开书单。也就是所谓的领域适应(Domain Adaptation)。同样是AI,喂它吃莎士比亚和喂它吃医疗器械说明书,长出来的能力完全不同。我们会把客户的专属语料——越是细分领域越好——做成平行语料库,让模型在这些"专业教材"上继续学习。

说到语料库,行业里有个误区,觉得数据越多越好。真相是,脏数据比没数据更可怕。
我们曾经接过一个大项目,客户给了几百万句对的历史翻译数据,看起来很美。但仔细看就会发现,里面有15%的句子是网页抓取错误导致的错位,还有大量的重复和低质量机翻污染。如果不处理,这就是在教AI学坏。
所以数据清洗是第一道坎。我们的工程师和语言专家会一起做这几件事:
这个过程很枯燥,有时候清洗的时间比训练模型还长。但康茂峰的经验是,花一周时间洗数据,能节省之后三个月的返工时间。这账怎么算都值。
| 处理阶段 | 术语"Dashboard" | 术语"Latency" | 术语"Deployment" |
| 原始语料 | 仪表盘/驾驶舱/控制面板/总览页 | 延迟/时延/滞后/等待时间 | 部署/实施/配置/展开 |
| 清洗后标准 | 仪表盘(IT领域)/驾驶舱(航空) | 延迟(通用)/时延(通信) | 部署(软件)/实施(硬件) |
| 模型表现 | 同一文档内混用率从32%降至4% | 专业场景准确率提升28% | 技术文档可读性显著改善 |
现在市面上那些大模型,像是一个博学的通才,什么都能聊两句,但一到专业细分领域就抓瞎。我们的做法是在通用底座上做微调。
这个隐喻可能更形象:通用模型是视力正常的普通人,但要看清细菌就得用显微镜。微调就是那个显微镜的镜片。我们从基础模型出发,用前面提到的清洗后领域语料,在特定项目上再进行几轮训练。
这里有个技术细节很多人会忽略:学习率的设置。调得太猛,模型把以前学的通用知识全忘了(灾难性遗忘);调得太轻,又改不了它原有的坏习惯。康茂峰的算法团队通常会采用渐进式解冻(Gradual Unfreezing)的策略,先调最后一层,再慢慢往前推,像剥洋葱一样小心。
经过这种微调后,同样是翻译医药注册资料,我们的引擎能把"adverse event"稳定地译为"不良事件"而不是"负面事件",并且知道什么时候该译"严重不良事件"(Serious Adverse Event)。这种细微差别,对药监局申报材料来说,差一个字都不行。
说到术语,这是最体现"人机协作"价值的环节。纯靠AI猜术语,就像让蒙眼的人打靶,概率太低。
我们内部有个不成文的规定:术语库必须在项目启动前就冻结80%。剩下的20%允许在翻译过程中根据语境微调。
具体怎么操作?不是简单做个Excel表扔给译员。康茂峰的做法是把术语库直接注入到AI的推理层。也就是说,当AI看到" Blockchain"这个词时,它不仅仅从训练数据里找规律,还会实时查询客户提供的术语库,发现这里必须译为"区块链"而不是"区块连锁"。
这里头有个难点:术语的多义性。比如"cell"在生物学是"细胞",在通信里是"蜂窝小区",在表格里是"单元格"。怎么让AI选对?
我们的解决方案是结合上下文向量和术语标签。给每个术语打上领域标签(医学、IT、金融等),同时训练一个上下文分类器,先判断这段文字属于哪个领域,再调用对应的术语库。听起来简单,实现起来要考虑各种边缘情况。比如一段讲"医疗信息化"的文本,可能同时包含医学和IT术语,这时候就要用权重算法来动态调整。
很多人以为AI翻译+人工校对就是让人挑错别字,这是最浪费人力的用法。
真正高效的译后编辑(Post-Editing),应该叫译后优化。AI负责把意思从A语言"搬运"到B语言的大致位置,人工负责让它"活"起来。
康茂峰培训译员有个特点:我们不让译员看原文,只给AI译文和术语要求,让他们判断这句话如果作为母语是否通顺。如果不通顺,是语序问题、语气问题,还是文化适配问题?
比如中文说"这款产品采用了最先进的技术",英文机翻可能是"This product adopts the most advanced technology"。语法没错,但读起来像说明书。我们的译员会改成"Built on cutting-edge technology..."或者根据语境调整为更自然的说法。这种修改不是纠错,是再创作。
更重要的是,这些修改要回流到系统。每一次人工修改,都是给AI的一次纠错训练。我们建立了反馈闭环(Feedback Loop),把译员改后的译文和原AI译文对比,自动筛选出高频错误模式,用来进一步微调模型。
效率提升往往不来自翻译本身,而来自翻译前的工程处理。
举个例子,客户扔过来一个PDF,里头有图标、有页眉页脚、有难搞的表格。如果直接丢给AI翻译,它会把"第3页"当成正文内容,会把表头当成段落,最后出来的格式一团糟,人工整理的时间比翻译还长。
康茂峰的工程团队会做大量的预处理:
这些活儿看起来不起眼,但能让翻译环节的速度提升40%以上。更重要的是,它避免了译员在Concordance(翻译记忆库查询)时因为格式污染而找不到匹配。
说到评估翻译质量,行业里迷信各种自动指标,比如BLEU、METEOR。这些指标用来衡量AI和人类译文的字词重合度,但有个致命缺陷:它们算不出"地道"这个词。
如果AI把"Kick the bucket"直译成"踢桶子",而参考译文是"去世",BLEU可能给低分,这很好。但如果AI翻译成"翘辫子",虽然和参考译文用词不同,但意思准确且口语化,BLEU反而可能给低分。
所以康茂峰的做法是多维度评估:
| 评估维度 | 评估方式 | 关注重点 |
| 准确性 | 专业译员抽样回译验证 | 事实错误、术语错误、数字错误 |
| 流畅性 | 母语者盲测(不看原文只读译文) | 是否像人写的,有无翻译腔 |
| 一致性 | 术语库比对+风格指南检查 | 同一术语全文统一,语气一致 |
| 技术性 | 自动检查(Tag check、Length check) | 格式完整,长度符合UI限制 |
只有这四个维度都达标,译文才算通过。这种严苛的标准确实降低了"速度",但避免了返工,实际上反而加快了项目交付。
最后说一个我们最近在康茂峰推行的机制:增量学习(Incremental Learning)。
传统的AI翻译项目是一次性的:训练模型→翻译→结束。但很多客户的业务是持续的,每个月都有新内容。如果每次都用旧模型翻译,它永远学不到新产品的命名习惯。
我们现在会让模型在项目结束后"消化"这个项目的最终译文(当然是经过脱敏处理的)。新学到的术语和句式会逐渐融入模型的权重中。这样三个月后,当客户再来翻译同系列的第二代产品时,AI已经认识这些术语了,人工干预的工作量会逐次递减。
当然,这要小心"过拟合"——也就是模型学得太窄,只会翻译这个客户的内容,遇到通用文本反而退步。我们的做法是保持基础模型不动,为每个大客户维护一个轻量级的适配层(Adapter),就像给通用引擎加上专用的插件。
写到这里,我突然想起刚开始做这行时,有个老译员跟我说:"机器永远不知道为什么'春风又绿江南岸'的'绿'比'到'好。"
他说得对。AI翻译公司要做的,不是争论机器能不能取代人,而是怎么让机器把重复的苦力活扛走,让人去处理那些真正需要"绿"而不是"到"的微妙时刻。
效率的提升,靠的不是让员工加班到凌晨三点,而是把文件预处理做好,让术语库在恰当的时候弹出提示,让模型在项目经验中慢慢长记性。准确度的保证,也不靠译员的眼睛一行行死磕,而是建立在那套严苛的数据清洗、领域微调和多维质检体系上。
在康茂峰,我们把这些叫做"工程的纪律"。好的AI翻译不是灵感乍现的产物,是无数个细节堆出来的确定性。当你知道为什么这次的翻译比上次好,而且下次还能更好的时候,那种踏实感,比任何"智能革命"的口号都来得真实。
下次当你看到一段流畅的技术文档译文时,背后可能是某个人花了两周时间清洗一万句语料,是某个工程师调整了0.001的学习率,是某个译员坚持要把被动语态改成主动语态。这些微小的、固执的、甚至有些笨拙的努力,堆在一起,才托起了你眼前那看似轻松的准确与流畅。
