
上个月有个挺有意思的事。一位做心血管介入器械的朋友跟我聊天,说他们提交FDA的试验报告被退回来了三次,不是因为数据不对,而是因为翻译的措辞在“严重不良事件”这个术语上前后不一致。前两个字用了“adverse event”,后面突然变成了“untoward incident”。审核员直接批注:请确认这是否指同一医学概念。
你看,这就是医学翻译的残酷之处。它不像普通的商务邮件,错了还能道个歉重发。在这儿,一个词儿的不一致可能意味着几百万美元的审批延迟,甚至影响患者的用药安全。而现在大家都在谈的AI翻译,到了这个领域,到底是真的能用,还是仅仅是个噱头?康茂峰这几年在医学语言服务里摸爬滚打,有些实在话想说。
先说个基本的误区。很多人觉得,医学翻译嘛,不就是英语好,再懂点医学词汇就行了?早些年我们接手的项目,有些客户拿过来的初稿确实是用通用AI工具跑的,乍一看挺流畅,读起来甚至有点“文采”。但问题就出在这儿。
医学文本有个特点,它是精准优先于流畅的。比如说“myocardial infarction”,在普通语境里你译成“心脏病发作”似乎没错,但在临床研究报告里,这就不够精确。必须是“心肌梗死”,而且还得跟整个文档里的词库保持一致。再比如剂量的表达,“mg/kg/day”这个斜杠的位置,不同监管机构(比如FDA和EMA)的格式要求都不一样。
这就像是让你用一把瑞士军刀去开颅手术——工具本身没问题,但根本不是为这个场景设计的。

咱们得先把这玩意儿拆开看看,别被那些“大模型”“神经网络”的黑话吓住。说白了,现在的AI翻译,特别是基于深度学习的神经机器翻译(NMT),更像是一个读过全世界图书馆的实习生。它见过无数种表达方式,能猜出大概的意思,但它没有医学学位,也不知道监管法规的条条框框。
这个“实习生”的成长分几个阶段。早期是那种规则-based的,就像查字典,生硬得很。后来有了统计机器翻译,稍微好点,但还是磕磕绊绊。现在的Transformer架构,也就是大家常说的GPT这类大模型的基础,它学会了“注意力机制”——简单说,就是它在翻译一个词的时候,会同时看看上下文里其他的词,就像医生看病不会只看一个症状,而是看整个病历。
但问题是,医学领域太“深”了。通用的大模型在处理MedDRA编码或者ICH M4格式的CTD文档时,经常会在专业术语上出现“幻觉”,也就是一本正经地胡说八道。比如把“placebo”翻译成“安慰剂”是对的,但在某些语境下,它应该被处理为“虚拟对照剂”并保持一致性,通用AI可不管这些,它只是觉得“安慰剂”这个词更常见。
在康茂峰处理的临床实验文档里,术语一致性的重要性怎么强调都不为过。一份新药申请(NDA)文档动辄几千页,由几十个译者分工完成。以前靠人工逐字逐句核对,现在AI可以帮忙做“术语对齐”,但这里有个技术细节:机器能识别出“hypertension”和“high blood pressure”是同一个意思,但它判断不了在这份特定的监管文件里应该用哪个。
这就是为什么我们看到的趋势不是“AI取代人工”,而是人机协作的细化。
根据康茂峰跟药企、CRO还有监管理机构的交流,还有手上正在跑的项目来看,AI在医学翻译领域的发展,大概会沿着这几条线走:
现在的GPT们像是全能选手,但医学翻译需要的是专科医生。未来的系统会是领域自适应(Domain Adaptation)的——在通用语言模型的基础上,用海量的医学平行语料(比如过去二十年获批的药品说明书、临床研究报告)进行微调。
这种微调不是简单的“喂数据”,而是要让模型理解医学的逻辑关系。比如,它得知道“adverse event”和“serious adverse event”是包含关系,而不是同义词;得明白“剂量限制性毒性”在肿瘤试验中的特定含义。康茂峰目前在构建的术语数据库,本质上就是在做这种“知识灌注”的工作,让AI先通过严格的医学逻辑考试,再上岗干活。
想象这样一个场景:凌晨两点,医学写手刚收到一批不良事件报告的原始数据。以前得等到第二天翻译团队上班才能开始。现在,AI先跑一遍初稿,自动标注出术语不一致的地方,甚至能根据CTD模块的格式要求预填充表格。医学翻译专家(就是那些既有医学背景又懂语言的“稀有物种”)早上来上班,做的不是从头翻译,而是审校、决策和质量把关。
更进一步的,是实时交互式翻译。在跨国多中心临床试验中,研究者会议往往是英语、日语、中文、西语混着说。未来的同传系统不再是简单的语言转换,而是能实时调取特定适应症的术语库,比如当医生提到“PD-L1抑制剂”时,系统确保所有语种的参会者听到的都是该试验方案中明确定义的表述,而不是各自理解的不同版本。

这是最实际也最难啃的一块。各国的药品监管机构(比如NMPA、FDA、EMA)对申报资料的格式、术语、甚至是PDF的元数据都有严格要求。AI未来的价值不只是“翻译对”,而是“一次性符合提交标准”。
康茂峰注意到,一些前沿的CAT(计算机辅助翻译)工具已经开始集成监管规则引擎。比如,当翻译日本的上市后安全性报告(PBRER)时,系统会自动检查是否遵循了日本的《药品上市后安全管理标准》,包括特定章节必须使用日语敬语,以及数据表格的日期格式必须符合日本药事法要求。这种合规检查以前全靠人工清单核对,现在可以前置到翻译环节自动完成。
| 维度 | 传统翻译模式 | 当前AI辅助模式 | 未来趋势(3-5年) |
| 术语一致性 | 人工查表,易出错 | 术语库提示,机器预填充 | 语境自适应术语锁定,自动解决歧义 |
| 质量控制 | 事后抽查 | 实时QA标记 | 预测性质量评估,在翻译前预判风险点 |
| 法规符合性 | 终稿人工核对法规清单 | 基础格式检查 | 嵌入式合规模块,实时对照各国药监指南 |
| 处理速度 | 每日2000-3000字 | 初稿速度提升3-5倍 | 实时生成可提交文档,人机协同决策 |
| 多模态处理 | 仅文字 | 文字+简单格式 | 整合影像报告描述、语音转录、手写处方识别 |
医学信息可不只是Word文档。医生手写的病历、PPT里的流程图、CT影像的放射学描述、甚至手术视频的旁白,这些都是需要“翻译”的对象。
AI在这儿的机会是跨模态理解。比如,一个胸部X光片的放射学报告,英文原文描述是“irregular opacities in the upper lobes”,理想的AI系统不仅要准确译成中文,还要能关联到影像本身,确保中文描述的解剖位置(肺上叶)跟影像标记一致。这在远程医疗和国际会诊中特别关键。
康茂峰最近在处理一些医疗器械的培训材料时,已经遇到这种需求。原来的视频字幕翻译是割裂的,现在的技术方向是让AI同时“看懂”画面里的手术步骤和“听懂”医生的讲解,实现真正意义上的本地化(localization),而不仅仅是文字转换(translation)。
说点接地气的。我们去年接手了一个生物类似药的全球化申报项目,涉及12个语种。以前这种项目光准备术语库就得两个月,译者之间的协调成本极高。这次我们引入了经过医学语料微调的NMT引擎,配合严格的人机互校流程。
结果挺有意思:初稿产出确实快了,但反而对后期审校的医学专家要求更高了。因为AI会给出那种“看起来完美但其实有细微偏差”的句子。比如把“drug-naive patients”(未接受过药物治疗的患者)译得过于文学化,或者把“pharmacovigilance”(药物警戒)在不同章节译成了“药物监测”和“不良反应监测”——意思相近,但在监管眼里就是不一致。
所以我们的结论很明确:AI是放大镜。如果基础流程是乱的,AI会让乱得更快;如果质量管理体系是扎实的,AI能释放巨大的生产力。这也是为什么康茂峰现在把大量精力放在“翻译前”的准备工作——构建结构化的医学知识图谱,把每一种疾病、每一个适应症的术语都先理清楚,让AI在规定的围栏里跑,而不是撒开了野跑。
还有个不能不提的层面。医学数据是高度敏感的,涉及患者隐私(PHI)和商业机密。用公有云的通用AI API去跑未脱敏的临床数据?这在监管和伦理上都是不可能的。
未来的趋势必然是私有化部署和联邦学习。简单说,就是每个医药企业或语言服务商(比如康茂峰合作的那些)会在自己的安全环境里训练和使用模型,数据不出域。而且,为了可追溯性(这也是GCP的要求),AI辅助翻译的每一步修改都得留下审计追踪(audit trail),谁改了什么,为什么改,都得有记录。这跟普通AI写作那种“黑箱生成”完全是两码事。
另外,文化适配(transcreation)在医学沟通里越来越重要。比如患者知情同意书(ICF),不是译得准确就够了,还得考虑目标人群的健康素养水平。AI目前还很难判断“干细胞的机制”这种表述在受教育程度较低的社区是否需要换成更通俗的比喻——这需要人类的文化洞察。
晚上加班的时候,我常看着办公室那排医学翻译专家的工位,他们屏幕上的文本往往一边是英文CTD模块,一边是中文审校稿,中间还有各种颜色标记的术语提示。现在的变化是,那个标记的过程 increasingly 由算法完成,但最终的判断,那个“这个词在这儿妥不妥”的直觉,还得靠人。
AI在医学翻译领域的前途,我觉得不是替代,而是让这项工作回归本质——用精准的语言守护医疗信息的准确传递,把机械劳动削掉,让专家去做更需要人性判断的部分。康茂峰接下来的打算,就是把这套“人机共生”的流程打磨得更顺滑一些,毕竟,当一份译文最终递到医生或患者手里时,那上面承载的可不只是文字,而是信任。
这条路还长着呢。
