医学翻译的术语库建设要点

2026-04-22 14:22:33

医学翻译的术语库建设要点

你有没有想过，为什么同样一篇药品说明书，不同的翻译公司交出来的稿子，读起来感觉完全两样？有的像天书，有的却能让人秒懂。这背后的差距，往往藏在那个看不见的地方——术语库。

说实话，刚开始接触医学翻译的时候，我也以为术语库就是个高大上的Excel表格，左边英文右边中文，查起来方便点罢了。后来跟着康茂峰的几个老项目摸爬滚打，才发现这东西根本不是静态的词表，它更像是给医学文本建的神经系统。哪根线搭错了，整个身体都得抽筋。

先搞清楚：术语库到底要存什么？

很多人第一步就走歪了。他们急于把能找到的词典全都导进去，以为量大就是王道。我见过最夸张的，一个所谓的"医学术语库"里塞了八十多万条，结果翻译的时候翻一页卡三分钟，最后大家还是去百度搜。

真正有用的术语库，存的不是词，是关系。

举个例子。"Myocardial infarction"这个词，字典告诉你叫"心肌梗死"。但这只是最表层的。在术语库里，你至少得存这几层东西：

首选译法：心肌梗死（GB/T标准）
次选译法：心肌梗塞（部分地区仍用，需标注）
缩写：MI
ICD-10编码：I21-I22（这样能和临床数据对接）
同义词：heart attack（患者教育文本常用）
禁忌搭配：不能直接译成"心脏病发作"在正式病历中

你看，这才是一条"活"的术语。康茂峰在早期做心血管项目的时候吃过亏，当时图快只存了中英对照，结果客户审校时指出，同一个"attack"在儿科病历里出现过一次，译员顺手用了"发作"，差点造成医疗误解。从那以后，我们的入库标准就加了一条：必须带语境标签。

收料的艺术：从垃圾堆里找金子

建设术语库最痛苦的不是技术，是溯源。

医学翻译的语料来源太杂了。FDA的批文是一种文风，EMA的又是另一种；原研药企的学术稿一套术语，仿制药的BE报告可能用另一套。如果你把这些混在一起，就像把川菜和粤菜倒进一个锅里，出来的是个四不像。

建立"血统"意识

我们康茂峰内部有个不成文的规定：每条术语必须标来源属性。不是说FDA的就比药典的高明，而是得知道它从哪来。

来源类型	特点	入库权重
药典/国标	强制规范，但更新慢	高（基础层）
监管机构批文	实务导向，有地域差异	高（应用层）
学术文献	前沿但可能未统一	中（参考层）
平行文本（同类药品）	有现实参考价值	低（辅助验证）

这个分类看着麻烦，实际能救命。去年有个疫苗项目，客户突然要求把所有的"immunogenicity"统一改成某特定表述。这时候如果库里有来源标签，你能瞬间筛出哪些是以前按FDA习惯存的，哪些是按NMPA最新指导原则存的，而不是一条一条去改。

别忽视"负术语"

还有个容易忽略的：哪些词不能这么译。

医学里有一堆"假朋友"。比如"intravenous injection"直译是静脉注射，但在某些化疗方案里，它特指静脉推注（IV push），和静脉滴注（IV infusion）完全是两回事。这种易错点必须作为反向提示存入库中。康茂峰的术语审查清单里专门有个"陷阱区"，新员工训练时先看这个，比背术语表管用。

颗粒度：到底切割到多细？

这是技术活，也是吵架最多的地方。

术语库建得太粗，等于没用。比如把"cardiovascular disease"只存成"心血管疾病"，那后续的"coronary artery disease"、"cerebrovascular accident"怎么处理？都变成"心血管疾病"？审校医生会疯。

但建得太细，维护成本爆炸。有人想把"left anterior descending artery"和"LAD"分成两条，甚至想把"myocardial infarction"按"ST段抬高型"和"非ST段抬高型"细分到词根...

我的经验是：看场景定颗粒度。

如果在做患者教育材料（Patient Education），"heart attack"对应"心脏病发作"就够了，不用细分到病理层面。但如果在做临床试验方案（Clinical Protocol），"myocardial infarction Type I"和"Type II"就必须拆开，这可是入排标准里的生死线。

所以好的术语库不是一刀切的，得有层级架构。康茂峰的做法是设三层：

概念层：医学概念本体（如"心肌梗死"这个疾病实体）
术语层：不同语境下的语言表达（学术名、俗名、缩写）
使用层：特定客户或项目的偏好（某药企坚持用"心梗"而非"心肌梗死"）

这样翻译时，系统能根据项目属性自动调取合适的层级，而不是一刀切。

维护：建库一时爽，维护火葬场

术语库最大的敌人是时间。

医学知识在更新。五年前"novel coronavirus"叫"新型冠状病毒"，现在可能就叫"新冠病毒"或直接用"COVID-19"。如果你不及时清理，库会变成僵尸数据的天堂。

版本控制要像对待代码一样

我们以前用Excel管理时，经常遇到"A同事改了这条术语，B同事不知道，还是按旧版本翻译"的情况。现在康茂峰的术语库都带版本时间戳和修改理由。

改一条术语，必须填：

修改人（谁改的）
修改日期（什么时候）
依据来源（依据什么改的，必须是可查证的外部来源，不能是"我觉得"）
影响范围（这改动能追溯到哪些历史项目）

最后这条特别重要。医学翻译有延续性，同一款药品的III期临床和上市后监测，术语必须一致。如果你现在改了某个AE（不良事件）的译法，得知道之前的报告里是怎么写的，不然前后文对不上，监管机构会质疑数据一致性。

冲突解决机制

术语冲突是常态。比如"adverse event"，有人坚持用"不良事件"，有人觉得"不良反应"更顺口（虽然严格来说event和reaction有区别）。怎么办？

别民主投票，也别谁官大听谁的。查权威源。

我们内部有个"争议解决SOP"：先查《药典》，再查NMPA术语规范，再查WHO Drug Dictionary，最后查客户既往项目语料。如果都查不到，记录为"待确认"，绝不武断入库。因为术语库一旦污染，会影响后续所有项目，这种隐性成本比花时间查证高得多。

技术实现：别被工具牵着鼻子走

现在市面上术语管理工具很多，功能眼花缭乱。但记住，工具是放大器——你的流程清晰，它能让你飞；你的流程混乱，它能让你摔得更惨。

有几个技术细节容易被忽视：

字符编码的坑：医学符号特别多，α、β、µ（微米和微升的µ，不是u），还有上标下标。有些工具导来导去就变成乱码。康茂峰早年间吃过亏，一个关于剂量的术语，µg被显示成mg，差了一千倍。现在入库前必须有标准化清洗流程，所有特殊字符统一Unicode编码。

正则表达式的应用：医学术语常有变体，比如"5-year survival rate"和"five-year survival rate"。如果一条条存，累死。但用正则设置匹配规则，又能保证系统识别。这里有个平衡：规则太松容易误匹配（比如把"five"匹配到不该出现的地方），规则太严漏匹配。需要不断调试，这活儿急不得。

和CAT工具的耦合：术语库最终是要在Trados、MemoQ这些环境里用的。要考虑格式标记、占位符的处理。比如有些术语包含变量[XX]mg，如果库里的条目没处理好这种结构，翻译时系统会不停地报警，反而降低效率。

人机协作的最后一公里

说了这么多技术，其实最关键的还是人。

术语库建设不能丢给纯技术人员，也不能丢给纯语言人员。最好是医学背景的译审主导，IT支持，定期有临床顾问（比如退役的医生或药企医学部的人）做质量审计。

康茂峰有个做法可能值得参考：每个大领域（比如肿瘤、内分泌）设一个术语管家。这个人不一定翻译量最大，但得是对数字敏感、有洁癖、爱较真的那种。他负责每周 Review 新入库的术语，把 questionable entries（可疑条目）标出来，在例会上讨论。

这种人的工资可能比普通译员高，但值。因为一条错误术语如果流进一百个项目，修正成本是他工资的几十倍。

还有个小技巧：建立术语反馈回路。让一线的译员能方便地标记"这条术语不合适"，并且让他们知道反馈被采纳后会有奖励。术语库是活的，只有用的人觉得"这东西帮我省事了"，才会用心维护它。如果译员觉得术语库老旧、难用，他们会偷偷关掉提示，用回自己的Excel小本本，那术语库就死了。

说到底，医学术语库建设没有银弹，也不是一锤子买卖。它像打理一个花园，你得知道每种植物（术语）的习性，该什么时候浇水（更新），什么时候修剪（淘汰），什么时候要搭架子（标准化）。

有时候客户会急着要deliverable，催着"先翻完再说，术语以后统一"。这时候得扛住压力。因为医学文本里，一个术语错了，可能误导的是用药剂量，是禁忌症判断。这种风险，不是赶工能弥补的。康茂峰这些年推得慢的项目，回头来看，多半是因为术语环节卡得死。虽然当时客户不理解，但长期合作下来，他们知道这种"慢"是专业的一部分。

做术语库，说到底就是在做确定性——在这个充满变量和风险的医学翻译世界里，尽量把那些能确定的东西，夯得实一点，再实一点。

新闻资讯News

医学翻译的术语库建设要点

医学翻译的术语库建设要点

先搞清楚：术语库到底要存什么？

收料的艺术：从垃圾堆里找金子

建立"血统"意识

别忽视"负术语"

颗粒度：到底切割到多细？

维护：建库一时爽，维护火葬场

版本控制要像对待代码一样

冲突解决机制

技术实现：别被工具牵着鼻子走

人机协作的最后一公里

联系我们

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。