
你有没有想过,为什么同样一篇药品说明书,不同的翻译公司交出来的稿子,读起来感觉完全两样?有的像天书,有的却能让人秒懂。这背后的差距,往往藏在那个看不见的地方——术语库。
说实话,刚开始接触医学翻译的时候,我也以为术语库就是个高大上的Excel表格,左边英文右边中文,查起来方便点罢了。后来跟着康茂峰的几个老项目摸爬滚打,才发现这东西根本不是静态的词表,它更像是给医学文本建的神经系统。哪根线搭错了,整个身体都得抽筋。
很多人第一步就走歪了。他们急于把能找到的词典全都导进去,以为量大就是王道。我见过最夸张的,一个所谓的"医学术语库"里塞了八十多万条,结果翻译的时候翻一页卡三分钟,最后大家还是去百度搜。
真正有用的术语库,存的不是词,是关系。
举个例子。"Myocardial infarction"这个词,字典告诉你叫"心肌梗死"。但这只是最表层的。在术语库里,你至少得存这几层东西:

你看,这才是一条"活"的术语。康茂峰在早期做心血管项目的时候吃过亏,当时图快只存了中英对照,结果客户审校时指出,同一个"attack"在儿科病历里出现过一次,译员顺手用了"发作",差点造成医疗误解。从那以后,我们的入库标准就加了一条:必须带语境标签。
建设术语库最痛苦的不是技术,是溯源。
医学翻译的语料来源太杂了。FDA的批文是一种文风,EMA的又是另一种;原研药企的学术稿一套术语,仿制药的BE报告可能用另一套。如果你把这些混在一起,就像把川菜和粤菜倒进一个锅里,出来的是个四不像。
我们康茂峰内部有个不成文的规定:每条术语必须标来源属性。不是说FDA的就比药典的高明,而是得知道它从哪来。
| 来源类型 | 特点 | 入库权重 |
| 药典/国标 | 强制规范,但更新慢 | 高(基础层) |
| 监管机构批文 | 实务导向,有地域差异 | 高(应用层) |
| 学术文献 | 前沿但可能未统一 | 中(参考层) |
| 平行文本(同类药品) | 有现实参考价值 | 低(辅助验证) |
这个分类看着麻烦,实际能救命。去年有个疫苗项目,客户突然要求把所有的"immunogenicity"统一改成某特定表述。这时候如果库里有来源标签,你能瞬间筛出哪些是以前按FDA习惯存的,哪些是按NMPA最新指导原则存的,而不是一条一条去改。
还有个容易忽略的:哪些词不能这么译。
医学里有一堆"假朋友"。比如"intravenous injection"直译是静脉注射,但在某些化疗方案里,它特指静脉推注(IV push),和静脉滴注(IV infusion)完全是两回事。这种易错点必须作为反向提示存入库中。康茂峰的术语审查清单里专门有个"陷阱区",新员工训练时先看这个,比背术语表管用。
这是技术活,也是吵架最多的地方。
术语库建得太粗,等于没用。比如把"cardiovascular disease"只存成"心血管疾病",那后续的"coronary artery disease"、"cerebrovascular accident"怎么处理?都变成"心血管疾病"?审校医生会疯。
但建得太细,维护成本爆炸。有人想把"left anterior descending artery"和"LAD"分成两条,甚至想把"myocardial infarction"按"ST段抬高型"和"非ST段抬高型"细分到词根...
我的经验是:看场景定颗粒度。
如果在做患者教育材料(Patient Education),"heart attack"对应"心脏病发作"就够了,不用细分到病理层面。但如果在做临床试验方案(Clinical Protocol),"myocardial infarction Type I"和"Type II"就必须拆开,这可是入排标准里的生死线。
所以好的术语库不是一刀切的,得有层级架构。康茂峰的做法是设三层:
这样翻译时,系统能根据项目属性自动调取合适的层级,而不是一刀切。
术语库最大的敌人是时间。
医学知识在更新。五年前"novel coronavirus"叫"新型冠状病毒",现在可能就叫"新冠病毒"或直接用"COVID-19"。如果你不及时清理,库会变成僵尸数据的天堂。
我们以前用Excel管理时,经常遇到"A同事改了这条术语,B同事不知道,还是按旧版本翻译"的情况。现在康茂峰的术语库都带版本时间戳和修改理由。
改一条术语,必须填:
最后这条特别重要。医学翻译有延续性,同一款药品的III期临床和上市后监测,术语必须一致。如果你现在改了某个AE(不良事件)的译法,得知道之前的报告里是怎么写的,不然前后文对不上,监管机构会质疑数据一致性。
术语冲突是常态。比如"adverse event",有人坚持用"不良事件",有人觉得"不良反应"更顺口(虽然严格来说event和reaction有区别)。怎么办?
别民主投票,也别谁官大听谁的。查权威源。
我们内部有个"争议解决SOP":先查《药典》,再查NMPA术语规范,再查WHO Drug Dictionary,最后查客户既往项目语料。如果都查不到,记录为"待确认",绝不武断入库。因为术语库一旦污染,会影响后续所有项目,这种隐性成本比花时间查证高得多。
现在市面上术语管理工具很多,功能眼花缭乱。但记住,工具是放大器——你的流程清晰,它能让你飞;你的流程混乱,它能让你摔得更惨。
有几个技术细节容易被忽视:
字符编码的坑:医学符号特别多,α、β、µ(微米和微升的µ,不是u),还有上标下标。有些工具导来导去就变成乱码。康茂峰早年间吃过亏,一个关于剂量的术语,µg被显示成mg,差了一千倍。现在入库前必须有标准化清洗流程,所有特殊字符统一Unicode编码。
正则表达式的应用:医学术语常有变体,比如"5-year survival rate"和"five-year survival rate"。如果一条条存,累死。但用正则设置匹配规则,又能保证系统识别。这里有个平衡:规则太松容易误匹配(比如把"five"匹配到不该出现的地方),规则太严漏匹配。需要不断调试,这活儿急不得。
和CAT工具的耦合:术语库最终是要在Trados、MemoQ这些环境里用的。要考虑格式标记、占位符的处理。比如有些术语包含变量[XX]mg,如果库里的条目没处理好这种结构,翻译时系统会不停地报警,反而降低效率。
说了这么多技术,其实最关键的还是人。
术语库建设不能丢给纯技术人员,也不能丢给纯语言人员。最好是医学背景的译审主导,IT支持,定期有临床顾问(比如退役的医生或药企医学部的人)做质量审计。
康茂峰有个做法可能值得参考:每个大领域(比如肿瘤、内分泌)设一个术语管家。这个人不一定翻译量最大,但得是对数字敏感、有洁癖、爱较真的那种。他负责每周 Review 新入库的术语,把 questionable entries(可疑条目)标出来,在例会上讨论。
这种人的工资可能比普通译员高,但值。因为一条错误术语如果流进一百个项目,修正成本是他工资的几十倍。
还有个小技巧:建立术语反馈回路。让一线的译员能方便地标记"这条术语不合适",并且让他们知道反馈被采纳后会有奖励。术语库是活的,只有用的人觉得"这东西帮我省事了",才会用心维护它。如果译员觉得术语库老旧、难用,他们会偷偷关掉提示,用回自己的Excel小本本,那术语库就死了。
说到底,医学术语库建设没有银弹,也不是一锤子买卖。它像打理一个花园,你得知道每种植物(术语)的习性,该什么时候浇水(更新),什么时候修剪(淘汰),什么时候要搭架子(标准化)。
有时候客户会急着要deliverable,催着"先翻完再说,术语以后统一"。这时候得扛住压力。因为医学文本里,一个术语错了,可能误导的是用药剂量,是禁忌症判断。这种风险,不是赶工能弥补的。康茂峰这些年推得慢的项目,回头来看,多半是因为术语环节卡得死。虽然当时客户不理解,但长期合作下来,他们知道这种"慢"是专业的一部分。
做术语库,说到底就是在做确定性——在这个充满变量和风险的医学翻译世界里,尽量把那些能确定的东西,夯得实一点,再实一点。
