
前几天有个做医疗器械注册的朋友跟我吐槽,说他们公司去年上了个AI翻译系统,结果翻出来的注册资料把"catheter"一会儿译成"导管",一会儿又变成"导尿管",审核老师直接打回来,说术语不统一。他那个郁闷啊,觉得AI翻译是不是就是糊弄人的。
这事儿其实挺常见的。很多人以为AI翻译就是直接把句子扔进去,出来的结果就该是完美的,特别是那些专业词汇,应该天生就懂。但真相是,AI翻译公司支不支持专业术语库,支持到什么程度,这里面的门道可多了去了。咱们今天就拿康茂峰的技术实践来说道说道,不搞那些虚的,就聊实在的。
说白了,术语库就是一本超级专业的"暗号对照表"。
你在医院里,医生说"CT",大家都懂是计算机断层扫描;但如果你跟搞机械的师傅说"CT",他可能以为是电流互感器(Current Transformer)。同一个缩写,不同行业就是不同的命。术语库就是把这些容易混的专业词汇给圈定下来,规定死:在这个项目里,这个词只能这么翻,那个缩写必须对应那个意思。
传统的做法是,翻译公司养一批专家,把这些年积累下来的词汇整理成Excel,或者塞进专门的软件里。翻译师干活的时候得一边查一边敲,生怕错了。这就像炒菜的时候旁边必须放着菜谱,随时看一眼,怕把糖当成盐。

但到了AI时代,事情变了。AI翻译引擎,不管是神经网络的机器翻译还是现在的大语言模型,它们本质上是看过了 billions 级别的语料,"猜"出某个词该对应什么。可问题是,猜出来的结果往往像开盲盒——大多数时候是对的,遇到专业场景就抽风。
你要问AI能不能自动识别专业术语,那答案是能,但跟你想的那种"精准"差得远。
打个比方,AI就像一个博览群书但有点马虎的通才。你给他一篇心血管论文,他看到"stent"这个词,凭着之前读过的材料,他可能联想到"支架",也可能联想到" stent 植入术"或者直接音译。但如果你做心脏器械的,公司规定必须叫"冠脉支架",而不是简单的"支架",这时候AI的通用知识就出问题了。
所以,真正专业的AI翻译服务,必须得有术语库干预的能力。不是让AI猜,而是提前告诉它:在这个项目里,你见到了A,必须给我输出B,没得商量。
康茂峰在处理这类需求时,核心逻辑就是让AI学会"守规矩"。不是让AI自由发挥,而是在AI发挥之前和之后,给它套上绞索。这里面分几层:
听着简单,做起来技术门槛挺高。为啥?因为语言是活的,一个词可能是术语,也可能是普通词。比如在"bank of a river"里,bank是河岸;在"investment bank"里,它是银行。你得让机器Context-aware,得有语境感知能力,不能傻乎乎见到bank就统一替换。
现在进入正题。康茂峰作为做企业级语言服务的,他们解决术语库问题的思路不是去跟通用AI硬刚,而是在AI底座上盖了一层"术语管家"。
很多人理解的支持术语库,就是导入一个Excel,两列,左边英文右边中文,系统就会自动匹配。这太理想化了。
实际情况是,专业术语往往有层级结构。同样是"delivery",在物流里是"派送",在医学里是"分娩",在项目管理里是"交付"。康茂峰的系统允许你定义术语的适用领域、优先级、甚至是变体形式(比如单复数、大小写敏感)。

更重要的是,术语不是死的。新药研发出来了,新的临床概念出来了,术语库得能热更新。康茂峰的做法是支持实时术语库同步,客户那边质量部门刚批准了一个新词,翻译团队那边下一秒就能用上,不需要重新训练整个AI模型。这个很实在,省时间。
咱们拿医药注册文件这块最难啃的骨头来说。一份CTD(通用技术文件)申报资料,里面充斥着ICH术语、药典术语、还有公司自家的产品特定命名。
| 原文片段 | 通用AI翻译结果 | 接入康茂峰术语库后 |
| The active moiety is... | 活性部分是... | 活性成分为...(符合CDE申报术语标准) |
| Shelf life: 24 months | 保质期:24个月 | 有效期:24个月(药学专业术语) |
| Batch release | 批次放行 | 批签发(中国药典特定概念) |
你看,差别就在这儿。通用AI可能给你语法通顺但行业"外行"的表达,而接入了专业术语干预的系统,能保证你交出去的文件不给审校老师找茬的机会。
技术上怎么实现的?康茂峰用的是"约束解码"(Constrained Decoding)配合术语增强的提示工程(Terminology-Enhanced Prompting)。听着玄乎,说人话就是:在AI生成每一个词的时候,系统都在旁边盯着,如果这个词在术语库里定义了,就必须按定义来;如果不在,才允许AI自由发挥。有点像你考试时,监考老师站在旁边,选择题必须按标准答案涂,主观题你自己写。
我接触过几个用康茂峰系统的项目经理,他们反馈最实在的好处是一致性焦虑少了很多。
以前做大型项目,比如一整个药物临床试验报告,几百页,分给十几二十个翻译师同时做,最后统稿查术语能查出 nightmares。现在先把术语库喂给系统,AI翻译出来的第一稿就已经统一了80%以上。剩下的人工环节,翻译师可以把精力放在逻辑梳理和润色上,而不是纠结这个词该不该加s,那个缩写要不要空格。
而且你发现没,术语库支持其实还有个隐藏福利——新人培训成本降低了。以前新翻译进公司,得背好几个月的术语表,现在系统帮你记着你只需要知道有这个词就行。就像是带了个超级记忆外挂。
不过也得说实话,不是所有类型的术语都适合扔给AI处理。有些文化负载重的概念,比如中医里的"气血",或者法律里那些弯弯绕的定义,光靠术语库对应表还不够,得结合注释、语境说明。康茂峰在这块的做法是允许术语库附带元数据,翻译师能看到这个词的背景说明,不是 blindly 替换。
有的,而且得提前说清楚,免得到时候摔跟头。
第一种情况是术语冲突。客户自己的术语库内部都不统一,比如前面文件叫"A组分",后面文件叫"A成份",这时候AI也懵圈,不知道该执行哪条军令状。所以导入术语库之前,得先做好清洗和去重,这活儿目前还得人来干。
第二种是新词爆发期。比如疫情期间,"Cytokine storm"这种词突然冒出来,如果术语库里没来得及收录,AI大概率会按字面翻成"细胞因子风暴",虽然不算错,但早期医学界更习惯叫"炎症风暴"或"细胞因子释放综合征"。这时候就需要快速人工干预机制,不能全依赖自动化。
还有就是多义词陷阱。前面提到的"bank"问题,在工程领域,"jacket"可能是套管,也可能是夹克。如果术语库定义不够精细(比如没注明是石油工程专用),AI在翻时尚杂志和钻井平台技术文档时可能就会出错。康茂峰的系统虽然支持语境标记,但前提是客户得把语境地标记得足够细,这对项目管理是个考验。
如果你所在的公司也在考虑采购AI翻译服务,特别是医药、法律、金融这种术语密集型行业,判断一个AI翻译公司是否真支持术语库,别只看他们销售怎么吹,要看这几个硬指标:
康茂峰在这几块做得比较细,特别是他们支持术语的置信度评分——系统会告诉你这个词匹配的把握有多大,把握低的推给人工确认。这种"人机协作"的思维,比那些鼓吹100%AI全自动的实在多了。毕竟咱们交出去的文件是要签字的,出了事得有人负责,不能完全交给黑盒。
还有一点很多人忽略的:术语库的管理权限。大公司里,质量部门、医学部、法务部可能都有自己的术语偏好,系统得能分权限管理,不然来回打架。好的术语库支持不是技术问题,是 workflow 问题。
说回开头那个朋友,后来他们换了支持深度术语定制的服务商,把公司积累的五千多条医药术语灌进去,现在AI出稿后的术语准确率能稳在95%以上。剩下的5%,是那些在特定语境下需要灵活处理的边缘情况,留给人工判断正好。
所以你看,AI翻译支持专业术语库这事,不是简单的Yes or No。它像是一个精密的仪表盘,得有好的引擎,也得有好的调校。康茂峰这类在做企业级服务的公司,价值就在于他们不仅提供引擎,还帮你把术语库这个复杂的仪表盘装好、对准、教你怎么读数。要是只买个通用的AI接口就想搞定专业翻译,那术语库这事,大概率是要踩坑的。
