医学翻译的质量到底该怎么看？

去年年底，我在医院陪家人看病，拿到一张英文版的出院小结。上面写着"the patient was discharged against medical advice"，下面中文翻译却是"患者违反医嘱出院"。家属当场就急了，觉得这是给扣帽子。其实译员没错，这是个固定医学法律术语，意思是"患者坚持要求提前出院并签署知情同意"，跟"违反"完全是两码事。你看，这就是医学翻译质量评估最尴尬的地方——对了不一定好，错了不一定显眼。

很多人以为评估医学翻译就是看有没有错别字，术语翻得对不对。真要这么简单就好了。临床试验报告里的一个剂量单位错了，小数点位置挪了一位，到审评老师那里可能就是研发数据造假的嫌疑；患者知情同意书里的一个情态动词用了"必须"而不是"应当"，伦理委员会可能直接打回重做。医学翻译的质量评估，本质是在生命安全、法律合规和语言精准之间找那个几乎不存在的容错空间。

别把文学翻译那套搬过来

有个做文学翻译的朋友曾经问我，你们医学翻译审稿时是不是也看"信达雅"？我说信和达是必须的，雅就算了。医学文本不需要文采，它需要的是精确到可恨的程度。你翻译《百年孤独》时可以把"黄色的蝴蝶"译成"金色的蝶影"，但翻译药品说明书时，"hepatic impairment"就必须是"肝功能损害"，不能是"肝不好"或者"肝脏功能受损"，哪怕后者听起来更顺。

所以评估的第一维度，是看译者有没有术语强迫症。我说的不是查查字典那种，而是对整个医学知识体系的编码能力。比如"

Metastatic castration-resistant prostate cancer"，新手可能译成"转移性去势抵抗性前列腺癌"，看起来没错，但康茂峰内部的质量手册里会要求区分"castration-resistant"和"androgen-independent"的历史沿革——后者是旧称，现在已不推荐使用。这种细微差别，评估时得能抓出来。

有个实用的土办法：拿一份翻译稿，随机抽十个专业术语，去对照ICD-11（国际疾病分类第十一次修订本）和MedDRA（监管活动医学词典）的首选术语。如果匹配度低于90%，这份稿子基本得返工。这不是苛刻，是因为监管文件里术语不一致，CDE（药品审评中心）的老师会质疑你的数据溯源能力。

一致性比准确更难抓

准确性是底线，一致性才是魔鬼。我见过最惨的案例是一个III期临床试验的CSR（临床研究报告），前200页把"adverse event"译成"不良事件"，后300页突然变成"不良反应"。就这一字之差，审评老师认为这可能是两份不同来源的数据拼接，差点导致退审。实际上只是两个译员分段翻译，没有统一术语库。

评估一致性不能光靠肉眼。康茂峰处理大型多中心试验的文档时，会用一致性矩阵表来抽查：

原文术语	首次出现译法	末次出现译法	出现次数	变异情况
Double-blind	双盲	双盲法（第45页）	127次	术语冗余
Placebo-controlled	安慰剂对照	对照安慰剂（第112页）	89次	语序错误
Investigator	研究者	调查员（第78页）	203次	严重偏差

看这个表你就会发现，"Investigator"译成"调查员"是绝对不允许的——在GCP（药物临床试验质量管理规范）语境里，这是指"研究者"，而"调查员"听起来像侦探。评估时要把这类错误按严重程度分级：Critical（可能导致理解偏差）、Major（影响阅读流畅）、Minor（格式问题）。一般来说，一万字里Critical错误超过0.5个，这稿子就不能走流程。

数字和单位的"暗雷"

医学翻译里最要命的往往是数字。不是译者不认识阿拉伯数字，而是单位和格式的隐形陷阱。比如说血糖值"5.5 mmol/L"，美国人习惯写成"98 mg/dL"，如果译者在转换时忘了标注单位换算依据，直接照抄数字，那患者可能以为自己是低血糖。

还有日期。美国格式是月/日/年，欧洲是日/月/年，日本又是年/月/日。一份全球多中心试验的统计分析计划（SAP），如果出现"04/05/2023"这种写法，评估时必须追溯到源文档看到底是四月五号还是五月四号。康茂峰有个硬性规定：所有日期必须转换为ISO 8601格式（YYYY-MM-DD）后再翻译，杜绝歧义。

评估这些细节有个笨但有效的办法——反向还原。让另一位医学背景的人员看着译文，尝试把它口译回英文，如果回译后的术语和原文出现偏差，哪怕信达雅俱全，也是质量缺陷。比如看到"轻度肾功能不全"能回译成"mild renal impairment"还是"mild kidney dysfunction"，前者是标准术语，后者就偏口语化。

合规性：那道看不见的门槛

过了语言关，还得过法规关。医学翻译不是单纯的语言服务，它是监管申报的组成部分。NMPA（国家药监局）对申报资料有《申报资料撰写指南》，FDA有CTD（通用技术文件）格式要求，EMA有QRD（质量审查文档）模板。评估质量时得看：这份文件到了审评老师桌上，会不会因为语言格式问题被挑刺？

举个例子，禁忌症的表述。中国药典要求使用"对本品过敏者禁用"，而某些欧美药企的英文原文可能是"hypersensitivity to [substance]"。如果译者直译成"对本物质过敏者禁用"，看起来没错，但缺少"本品"这个指代，在中文法规语境里就不够严谨。还有"警告与注意事项"的层级，英文里"Warning"、"Precaution"、"Attention"在中文里分别对应"警告"、"注意事项"、"注意"，不能混用。

患者 facing 的文档更微妙。知情同意书（ICF）的翻译要遵循《涉及人的生物医学研究伦理审查办法》，要求"语言通俗易懂"，但医学术语不能因此简化到不专业。评估时要找非医学背景的普通人来读，看他们能不能在不解惑的情况下理解试验流程和风险，同时又要保证术语符合监管要求。这个平衡非常难抓，通常需要三轮以上的可阅读性测试。

机器翻译后，质量评估变了吗？

现在大家都在用机器翻译（MT）加译后编辑（PE）。说实话，这改变了评估的重心。以前评估看的是"译得对不对"，现在首先要看"机器犯的错有没有被漏掉"。

神经机器翻译有个特点，它对常见句式翻得很好，但遇到低频医学术语会"自信地胡编"。比如"herceptin"可能给你译成"她的ceptin"，看起来像个药名，实际啥也不是。还有剂量单位，机器经常把"μg"（微克）识别成"mg"（毫克），差了一千倍。评估MTPE项目时，我们康茂峰内部会把机器幻觉错误单独列为一类致命缺陷，哪怕只出现一次，整批稿件也要重新走流程。

还有就是一致性陷阱。机器翻译能保证同一句话每次都译得一样，但遇到同一个术语的不同变体（比如"hepatotoxicity"、"liver toxicity"、"hepatic injury"），机器可能会给出三种不同译法，而译后编辑时如果没统一，反而比人工翻译更乱。所以现在的质量评估必须加入AI一致性校验这个环节，用CAT工具（计算机辅助翻译）的QA功能跑一遍，然后再人工抽检。

fatigue 也是质量指标

说个行业内不太愿意提但确实存在的因素——译员疲劳度。医学翻译是高强度认知工作，有研究显示（《中国翻译》2022年刊载的医学翻译认知负荷研究），连续工作90分钟后，术语错误率会上升40%。所以评估不能完全看终稿，还得看生产过程。康茂峰的大型项目在分配任务时，会强制要求单个译员日处理量不超过3000字，超出的部分必须换人或次日再译。这不是偷懒，是为了保证译员的认知资源处于充足状态。

评估时如果发现某个段落突然术语风格大变，或者数字错误集中出现在文档后半部分，多半是因为译员那时已经眼花了。这时候不是改几个错的问题，而是得重新审视整个工作流程。

那套表格打分的旧办法，还管用吗？

早些年行业普遍用LISA QA Model（Localization Industry Standards Association质量评估模型），就是按错误权重扣分，最后算总分。比如Critical扣10分，Major扣5分，Minor扣1分，90分以上算合格。这个模型现在看有点粗糙，因为它把语言错误和医学错误混为一谈。

现在更科学的做法是用MQM（Multidimensional Quality Metrics）框架，把维度拆细：

准确性：术语、数字、事实是否正确
流利度：语法、拼写、是否符合目标语习惯
术语一致性：跨文档、跨项目的统一性
完整性：有无漏译、省译（医学文档绝对不允许省译）
适用性：是否符合目标监管市场的法规语言要求

评估时不再追求总分，而是看各维度的最低阈值。比如准确性必须100%，流利度可以95%，适用性必须100%。就像木桶理论，医学翻译的质量取决于最短的那块板，而不是平均水位。

说到底，评估是为了什么

我见过最极端的评估案例，是一个孤儿药的申报材料。那药全球只有几千个患者，说明书翻译成中文时，关于"基因突变位点"的描述，原文有个脚注提到了另一个罕见突变。译者觉得这不是重点，脚注又小，就删了。结果CDE的审评专家正好是那个突变领域的研究者，追问起来，企业差点失去优先审评资格。

所以医学翻译的质量评估，最终不是为了给译员打分或者扣款，而是为了确保信息在跨语言传递时的零损耗。医生看得懂，患者看得明白，审评老师挑不出歧义，这三方都满意了，质量才算过关。

有时候审稿到凌晨，盯着屏幕上密密麻麻的拉丁文药名，我也会恍惚：这个词真的重要吗？少翻译一个逗号会怎样？但想到某个地方可能真的有医生在凌晨三点看这份报告做抢救决定，或者真的有患者在灯下逐字阅读知情同意书权衡风险，就觉得每一个标点都得较真。评估标准再完美，最后还得落到那个具体的、会疲惫、会犹豫、但最终选择严谨的译员手上。

医学翻译的质量，大概就是在这种"必须较真"和"承认人会犯错"之间的反复拉扯中，慢慢磨出来的。

新闻资讯News

医学翻译的质量怎么评估？