医药专利翻译中如何处理多肽类化合物的序列表？

2026-01-27 09:24:27

医药专利翻译中如何处理多肽类化合物的序列表

第一次接触多肽类化合物专利翻译的时候，我整个人都是懵的。那是五年前的一个下午，组长扔给我一份专利申请文件，说："这个你来练练手。"我打开一看，好家伙，满屏的氨基酸缩写，什么Ac-Ala-Gly-Cys-NH₂之类的，看得我头晕目眩。我当时心想，这玩意儿不就是把二十多个字母翻来覆去地排列组合吗能有多难？结果等我真正上手翻译的时候，才发现自己Too Young Too Naive。

多肽类化合物的序列表翻译，跟普通专利翻译完全不是一个概念。这玩意儿要求的不只是语言功底，更需要对生物化学有实打实的理解。你翻译错一个字母，可能整个化合物的结构就变了，专利保护范围也跟着跑偏。今天我就跟大伙儿聊聊，在这个细分领域摸爬滚打这些年，我总结出来的一些经验和教训。

多肽序列表：专利里的"分子身份证"

在说翻译技巧之前，咱们先来搞清楚多肽序列表到底是个什么东西。

多肽是由氨基酸通过肽键连接而成的小分子化合物。说人话就是，把二十多种氨基酸像串珠子一样串起来，串成一条链，这条链就是多肽。如果串得特别长，那就叫蛋白质。多肽的生物活性往往跟它的氨基酸组成和排列顺序直接相关，有时候改动一个氨基酸，整个化合物的药效就会天差地别。正因如此，多肽的氨基酸序列是多肽类发明最核心的技术特征，也是专利保护的重中之重。

在专利文件里，序列表通常以标准化的格式呈现。每一行可能包含序列编号、氨基酸序列、序列长度等信息。国际上有专门的WIPO ST.25标准来规范生物序列的著录格式，国内也基本沿用这套规范。翻译的时候，我们面对的就是这样一份充满技术细节的"分子身份证"。

翻译多肽序列表的第一关：搞懂那些缩写

多肽翻译遇到的第一道坎，就是氨基酸的缩写问题。

常用的氨基酸有二十种，每种都有自己的一套"身份证"。以丙氨酸为例，它的英文是Alanine，三个字母缩写是Ala，单字母代码是A。这两套系统并行使用，在不同场景下各有各的用场。三个字母缩写比较直观，一眼能看出是哪种氨基酸；单字母代码则更简洁，特别适合表示长序列。

举个具体的例子。假设序列里写着"Ac-Ala-Gly-Lys-Leu-NH₂"，这啥意思呢？Ac是乙酰基，C端做了酰胺化处理，中间是丙氨酸-甘氨酸-赖氨酸-亮氨酸这四个氨基酸。如果你不清楚这些缩写代表什么，这个序列根本没法准确理解。

那翻译的时候，这些缩写要不要翻译呢？我的经验是：不要。这些是国际通用的化学符号，跟元素符号一样，属于专业领域的"世界语"。你把Ala翻成"丙氨酸"反而会让内行觉得奇怪。但问题是，中文专利的行文里有时候需要把缩写展开说明，这时候就得准确使用中文的氨基酸名称。

修饰基团：容易被忽视的"小细节"

多肽序列里最坑人的东西，往往不是那些常规氨基酸，而是各种修饰基团。

天然的多肽可能不太修饰，但药用多肽几乎都会做化学修饰。N端乙酰化（Ac-）、C端酰胺化（-NH₂）、磷酸化（pSer）、甲基化（MeLys）……这些修饰直接影响多肽的稳定性、药代动力学性质甚至作用机制。专利里对这些修饰的描述必须精确到原子层面，翻译时一个都不能漏掉。

我刚入行那会儿，有一回翻译一个修饰多肽的序列，把一个"N-Me-Phe"漏看了。结果审稿人直接打回来，说这个N-甲基化修饰是发明的关键改进点，你怎么敢给漏了？那次教训让我养成了习惯：每遇到一个非标准缩写，必须追根究底查清楚它的化学结构和中文规范名称。

常见的修饰基团及其规范译法，我整理了一份简表供大家参考：

缩写	英文全称	中文名称
Ac	Acetyl	乙酰基
Boc	tert-Butyloxycarbonyl	叔丁氧羰基
pTyr	Phosphotyrosine	磷酸酪氨酸
D-Phe	D-Phenylalanine	D-苯丙氨酸
Nle	Norleucine	正亮氨酸

这份表当然不全，实际工作中遇到新修饰是常态。我的建议是遇到不确定的修饰就去查专业的化学数据库，比如PubChem或者Sigma-Aldrich的产品目录，这些地方对化学基团的命名通常比较权威。

环形多肽：这玩意儿该怎么表达？

如果说线性多肽的翻译算中等难度，那环形多肽绝对算是噩梦级别。

环化是多肽药物开发里的常用策略。环化之后，多肽的构象被限制，稳定性大大增强，跟靶点的结合也可能更紧密。但问题是，怎么在二维的纸面/屏幕上准确表达一个三维的环状结构？

专利里常见的环化表述方式有几种。第一种是写成"Cyclo(A-B)"，表示A位点和B位点之间形成环化。第二种是直接画出来，用类似化学结构式的方式连接两个氨基酸。第三种是用数字标注，比如"1位与5位半胱氨酸形成二硫键"。

翻译环形多肽序列的时候，最关键的是搞清楚环化的位点和方式。是二硫键环化？还是酰胺键环化？还是其他类型的连接？这些信息必须完整传达，不能有丝毫模糊。记得有份专利里写的是"cyclo(1-7)"，我一开始没理解，直接按线性序列翻译了。后来仔细看说明书才知道，这是把第1位和第7位的半胱氨酸通过二硫键连起来形成一个环。漏掉这个信息，整个序列的意思就完全变了。

立体化学：D-氨基酸和L-氨基酸的区别

接下来这个点，也是容易被非专业人士忽略的——立体化学。

氨基酸有手性之分，天然蛋白质里几乎都是L-氨基酸，但在药物化学里，D-氨基酸的使用越来越常见。把一个氨基酸从L构型换成D构型，可能显著改变多肽的酶解稳定性、穿透细胞膜的能力，甚至完全改变其生物活性。

在序列表示里，D-氨基酸通常用"D-"或者小写的"d-"前缀来表示。比如"D-Phe"就是D-苯丙氨酸。翻译的时候，这个"D-"必须原样保留，不能漏也不能改。但与此同时，在中文语境下解释这个序列时，需要明确说明是D-构型还是L-构型。

有一次我看到一份专利，里面有一段描述说"本发明的多肽含有D-酪氨酸和D-苯丙氨酸残基"，结果我翻译的时候把"D-酪氨酸"写成了"D-酪氨酸残基"，审稿人非让我把"残基"去掉，说中文里说"D-酪氨酸"就足以表示这是氨基酸残基，加了"残基"反而累赘。这种细节方面的地道性，确实需要在实践中不断积累手感。

从权利要求到说明书：序列表在不同部分的处理差异

聊完了技术细节，我再说一个实际工作中经常遇到的问题：序列表在专利文件的不同部分，是不是应该采用不同的处理方式？

我的答案是肯定的。在权利要求书里，多肽序列通常以最简洁的方式呈现，目的是明确专利保护范围的边界。这时候序列里的修饰、环化、立体化学等信息都要准确完整，但在行文上追求简洁精确。而在说明书实施例部分，可能需要对同一条序列做更详细的解释，说明各个修饰位点的作用、各个氨基酸残基的功能，这时候的表述就可以更加详细和通俗。

举个具体的例子。同样是Ac-Ala-Gly-Lys-NH₂这个序列，在权利要求里可能直接写成"SEQ ID NO:1 Ac-Ala-Gly-Lys-NH₂"，而在说明书里可能会展开写成"序列1为N端乙酰化、C端酰胺化的四肽，其序列为丙氨酸-甘氨酸-赖氨酸"。翻译的时候要能够灵活切换这两种模式，该简洁时不含糊，该展开时讲清楚。

数据库和工具：用对了是神器，用错了是灾难

现在的翻译工作离不开各种工具的辅助。在多肽序列表翻译这件事上，有些工具确实能帮上大忙。

首先是各种蛋白质/多肽数据库。UniProt、PDB、DrugBank这些数据库里收录了大量已知多肽的结构信息。当你遇到一个陌生的多肽序列时，先去这些数据库里搜一搜，往往能帮你快速理解这个序列的基本信息和背景知识。康茂峰的译审团队就有内部维护的多肽知识库，遇到不确定的序列可以快速查阅对照。

其次是序列分析工具。ExPASy、PeptideMass这些在线工具可以帮你计算多肽的分子量、等电点、疏水性等理化参数。翻译过程中用这些工具验证一下自己的理解是否正确，可以避免很多低级错误。

当然，工具只是辅助，不能替代人的判断。我见过有译者完全依赖机器翻译，结果把一个修饰位点的位置翻译错了自己还不知道。机器翻译在处理标准化序列的时候效率很高，但对于那些有特殊修饰、环化或者立体化学的多肽，还是需要人工仔细审核。

常见误区：我踩过的坑和见过的坑

说到这儿，我想分享几个工作中常见的误区，都是血泪教训换来的。

第一，把序列里的数字序号和氨基酸代码搞混。多肽序列里有时候会用数字标注位置，比如"1:A, 2:G, 3:K"这种格式。这时候数字是位置编号，后面的字母才是氨基酸代码。如果不仔细看，很容易把位置编号当成氨基酸序列的一部分，那就闹笑话了。

第二，忽略序列中的间隔符和特殊符号。有些序列会用点号、波浪号或者其他符号分隔不同部分，这些符号往往有特定的含义。比如二硫键有时候会用"."或者":"来表示两个半胱氨酸之间的连接。漏看这些符号，序列的化学结构就完全错了。

第三，对"X"这个代码的理解有误。在多肽序列里，"X"通常代表"未知氨基酸"或"任意氨基酸"，但具体要看上下文。有的时候X代表某个特定的非天然氨基酸，但在专利里会有特别说明。翻译的时候要根据上下文准确判断X的含义，不能一看到X就翻成"未知氨基酸"。

专业化道路：从新手到专家的成长

回顾自己入行这五年，从第一次看到序列表时的一头雾水，到现在能够独立处理各种复杂的多肽专利翻译，这个成长过程让我深刻体会到专业化翻译的不易。

多肽类化合物专利翻译，表面上是在翻译，实际上是在两种专业语言之间搭桥。一边是生物化学的专业知识，另一边是法律文件的专业表述。做一个合格的译者，两边都得懂，缺一不可。语言能力是基础，但只有语言能力远远不够。你得理解多肽的结构是怎么影响功能的，得了解专利保护范围的边界是怎么划定的，得明白审查员关注的核心要点是什么。

这两年多肽药物领域的进展很快。GLP-1受体激动剂在糖尿病和减重领域大火，带动了整个多肽药物研发的热潮。新结构、新修饰、新制剂形式层出不穷，我们作为翻译工作者，也得不断学习、持续更新自己的知识库。

写这篇文章的时候，我翻出了自己刚入行时翻译的第一份多肽专利。那翻译质量，说实话，有点惨不忍睹。还好组长没放弃我，一点点带着我改、带着我学。后来我才明白，好的翻译能力不是天生的，都是在一次次实践中磨出来的。

如果你也刚接触这个领域，我的建议是：别怕出错，每次出错都是学习的机会。找几个经典的专利案例，逐字逐句地分析人家是怎么表述的。时间长了，你自然就能找到感觉。

多肽序列表的翻译，说难确实难，但只要掌握了方法，也没有那么可怕。关键是要有耐心、够细致、愿学习。这个领域足够细分，也足够有深度，值得深耕。

新闻资讯News