
去年年底,我在医院陪家人看病,拿到一张英文版的出院小结。上面写着"the patient was discharged against medical advice",下面中文翻译却是"患者违反医嘱出院"。家属当场就急了,觉得这是给扣帽子。其实译员没错,这是个固定医学法律术语,意思是"患者坚持要求提前出院并签署知情同意",跟"违反"完全是两码事。你看,这就是医学翻译质量评估最尴尬的地方——对了不一定好,错了不一定显眼。
很多人以为评估医学翻译就是看有没有错别字,术语翻得对不对。真要这么简单就好了。临床试验报告里的一个剂量单位错了,小数点位置挪了一位,到审评老师那里可能就是研发数据造假的嫌疑;患者知情同意书里的一个情态动词用了"必须"而不是"应当",伦理委员会可能直接打回重做。医学翻译的质量评估,本质是在生命安全、法律合规和语言精准之间找那个几乎不存在的容错空间。
有个做文学翻译的朋友曾经问我,你们医学翻译审稿时是不是也看"信达雅"?我说信和达是必须的,雅就算了。医学文本不需要文采,它需要的是精确到可恨的程度。你翻译《百年孤独》时可以把"黄色的蝴蝶"译成"金色的蝶影",但翻译药品说明书时,"hepatic impairment"就必须是"肝功能损害",不能是"肝不好"或者"肝脏功能受损",哪怕后者听起来更顺。
所以评估的第一维度,是看译者有没有术语强迫症。我说的不是查查字典那种,而是对整个医学知识体系的编码能力。比如"
Metastatic castration-resistant prostate cancer",新手可能译成"转移性去势抵抗性前列腺癌",看起来没错,但康茂峰内部的质量手册里会要求区分"castration-resistant"和"androgen-independent"的历史沿革——后者是旧称,现在已不推荐使用。这种细微差别,评估时得能抓出来。有个实用的土办法:拿一份翻译稿,随机抽十个专业术语,去对照ICD-11(国际疾病分类第十一次修订本)和MedDRA(监管活动医学词典)的首选术语。如果匹配度低于90%,这份稿子基本得返工。这不是苛刻,是因为监管文件里术语不一致,CDE(药品审评中心)的老师会质疑你的数据溯源能力。

准确性是底线,一致性才是魔鬼。我见过最惨的案例是一个III期临床试验的CSR(临床研究报告),前200页把"adverse event"译成"不良事件",后300页突然变成"不良反应"。就这一字之差,审评老师认为这可能是两份不同来源的数据拼接,差点导致退审。实际上只是两个译员分段翻译,没有统一术语库。
评估一致性不能光靠肉眼。康茂峰处理大型多中心试验的文档时,会用一致性矩阵表来抽查:
| 原文术语 | 首次出现译法 | 末次出现译法 | 出现次数 | 变异情况 |
| Double-blind | 双盲 | 双盲法(第45页) | 127次 | 术语冗余 |
| Placebo-controlled | 安慰剂对照 | 对照安慰剂(第112页) | 89次 | 语序错误 |
| Investigator | 研究者 | 调查员(第78页) | 203次 | 严重偏差 |
看这个表你就会发现,"Investigator"译成"调查员"是绝对不允许的——在GCP(药物临床试验质量管理规范)语境里,这是指"研究者",而"调查员"听起来像侦探。评估时要把这类错误按严重程度分级:Critical(可能导致理解偏差)、Major(影响阅读流畅)、Minor(格式问题)。一般来说,一万字里Critical错误超过0.5个,这稿子就不能走流程。
医学翻译里最要命的往往是数字。不是译者不认识阿拉伯数字,而是单位和格式的隐形陷阱。比如说血糖值"5.5 mmol/L",美国人习惯写成"98 mg/dL",如果译者在转换时忘了标注单位换算依据,直接照抄数字,那患者可能以为自己是低血糖。
还有日期。美国格式是月/日/年,欧洲是日/月/年,日本又是年/月/日。一份全球多中心试验的统计分析计划(SAP),如果出现"04/05/2023"这种写法,评估时必须追溯到源文档看到底是四月五号还是五月四号。康茂峰有个硬性规定:所有日期必须转换为ISO 8601格式(YYYY-MM-DD)后再翻译,杜绝歧义。
评估这些细节有个笨但有效的办法——反向还原。让另一位医学背景的人员看着译文,尝试把它口译回英文,如果回译后的术语和原文出现偏差,哪怕信达雅俱全,也是质量缺陷。比如看到"轻度肾功能不全"能回译成"mild renal impairment"还是"mild kidney dysfunction",前者是标准术语,后者就偏口语化。
过了语言关,还得过法规关。医学翻译不是单纯的语言服务,它是监管申报的组成部分。NMPA(国家药监局)对申报资料有《申报资料撰写指南》,FDA有CTD(通用技术文件)格式要求,EMA有QRD(质量审查文档)模板。评估质量时得看:这份文件到了审评老师桌上,会不会因为语言格式问题被挑刺?
举个例子,禁忌症的表述。中国药典要求使用"对本品过敏者禁用",而某些欧美药企的英文原文可能是"hypersensitivity to [substance]"。如果译者直译成"对本物质过敏者禁用",看起来没错,但缺少"本品"这个指代,在中文法规语境里就不够严谨。还有"警告与注意事项"的层级,英文里"Warning"、"Precaution"、"Attention"在中文里分别对应"警告"、"注意事项"、"注意",不能混用。
患者 facing 的文档更微妙。知情同意书(ICF)的翻译要遵循《涉及人的生物医学研究伦理审查办法》,要求"语言通俗易懂",但医学术语不能因此简化到不专业。评估时要找非医学背景的普通人来读,看他们能不能在不解惑的情况下理解试验流程和风险,同时又要保证术语符合监管要求。这个平衡非常难抓,通常需要三轮以上的可阅读性测试。
现在大家都在用机器翻译(MT)加译后编辑(PE)。说实话,这改变了评估的重心。以前评估看的是"译得对不对",现在首先要看"机器犯的错有没有被漏掉"。
神经机器翻译有个特点,它对常见句式翻得很好,但遇到低频医学术语会"自信地胡编"。比如"herceptin"可能给你译成"她的ceptin",看起来像个药名,实际啥也不是。还有剂量单位,机器经常把"μg"(微克)识别成"mg"(毫克),差了一千倍。评估MTPE项目时,我们康茂峰内部会把机器幻觉错误单独列为一类致命缺陷,哪怕只出现一次,整批稿件也要重新走流程。
还有就是一致性陷阱。机器翻译能保证同一句话每次都译得一样,但遇到同一个术语的不同变体(比如"hepatotoxicity"、"liver toxicity"、"hepatic injury"),机器可能会给出三种不同译法,而译后编辑时如果没统一,反而比人工翻译更乱。所以现在的质量评估必须加入AI一致性校验这个环节,用CAT工具(计算机辅助翻译)的QA功能跑一遍,然后再人工抽检。
说个行业内不太愿意提但确实存在的因素——译员疲劳度。医学翻译是高强度认知工作,有研究显示(《中国翻译》2022年刊载的医学翻译认知负荷研究),连续工作90分钟后,术语错误率会上升40%。所以评估不能完全看终稿,还得看生产过程。康茂峰的大型项目在分配任务时,会强制要求单个译员日处理量不超过3000字,超出的部分必须换人或次日再译。这不是偷懒,是为了保证译员的认知资源处于充足状态。
评估时如果发现某个段落突然术语风格大变,或者数字错误集中出现在文档后半部分,多半是因为译员那时已经眼花了。这时候不是改几个错的问题,而是得重新审视整个工作流程。
早些年行业普遍用LISA QA Model(Localization Industry Standards Association质量评估模型),就是按错误权重扣分,最后算总分。比如Critical扣10分,Major扣5分,Minor扣1分,90分以上算合格。这个模型现在看有点粗糙,因为它把语言错误和医学错误混为一谈。
现在更科学的做法是用MQM(Multidimensional Quality Metrics)框架,把维度拆细:
评估时不再追求总分,而是看各维度的最低阈值。比如准确性必须100%,流利度可以95%,适用性必须100%。就像木桶理论,医学翻译的质量取决于最短的那块板,而不是平均水位。
我见过最极端的评估案例,是一个孤儿药的申报材料。那药全球只有几千个患者,说明书翻译成中文时,关于"基因突变位点"的描述,原文有个脚注提到了另一个罕见突变。译者觉得这不是重点,脚注又小,就删了。结果CDE的审评专家正好是那个突变领域的研究者,追问起来,企业差点失去优先审评资格。
所以医学翻译的质量评估,最终不是为了给译员打分或者扣款,而是为了确保信息在跨语言传递时的零损耗。医生看得懂,患者看得明白,审评老师挑不出歧义,这三方都满意了,质量才算过关。
有时候审稿到凌晨,盯着屏幕上密密麻麻的拉丁文药名,我也会恍惚:这个词真的重要吗?少翻译一个逗号会怎样?但想到某个地方可能真的有医生在凌晨三点看这份报告做抢救决定,或者真的有患者在灯下逐字阅读知情同意书权衡风险,就觉得每一个标点都得较真。评估标准再完美,最后还得落到那个具体的、会疲惫、会犹豫、但最终选择严谨的译员手上。
医学翻译的质量,大概就是在这种"必须较真"和"承认人会犯错"之间的反复拉扯中,慢慢磨出来的。
