新闻资讯News

 " 您可以通过以下新闻与公司动态进一步了解我们 "

eCTD电子提交对中文编码格式有什么规定?

时间: 2026-01-27 21:40:19 点击量:

eCTD电子提交时,中文编码格式的那些门道

前几天有个朋友问我,他们在准备药品注册的eCTD申报材料时,中文部分到底该怎么编码。一开始我觉得这问题挺简单的,不就是选个编码格式嘛。但聊着聊着发现,这里面的讲究还真不少,稍微不留神就可能踩坑。今天咱们就好好聊聊这个话题,把eCTD里中文编码格式的规定说清楚。

先说句题外话,我们康茂峰在处理这类申报业务时,发现很多企业对编码格式不够重视,觉得只要内容对就行。结果到了验证阶段发现一堆错误,改起来费时费力。所以这篇文章,希望能帮大家少走弯路。

为什么eCTD对编码格式这么较真?

在说具体规定之前,咱们先理解一个基本道理。eCTD是一种国际通用的电子提交格式,它的核心目标之一就是让不同国家、不同语言的评审人员都能准确阅读你提交的资料。你想啊,一份申报材料可能要送到美国FDA、欧洲EMA,还有中国NMPA,如果编码乱七八糟,评审专家看到的都是乱码,那这材料基本上就白准备了。

举个生活中的例子,你就明白了。你给国外朋友发中文微信,如果手机编码不对,他看到的可能就是一堆问号和奇怪符号。eCTD的道理一模一样,只不过它更严格,因为这是正式的法律文件,不允许有任何歧义。

几个你必须搞懂的基本概念

编码格式到底是什么?

简单说,编码格式就是计算机存储和传输文字的一种规则。咱们中文常用的编码格式有好几种,比如GB2312、GBK、UTF-8、UTF-16这些。它们之间有什么区别呢?

GB2312是最早的简体中文字符集,收录了六七千个汉字,但很多生僻字和繁体字它不认。GBK是GB2312的扩展版本,增收了更多汉字,涵盖了繁体字,兼容性更好。UTF-8呢,是一种国际化的编码方式,它用1到4个字节来表示一个字符,几乎包含了世界上所有语言的文字。UTF-16则是用固定的两个或四个字节来表示字符。

eCTD对编码的基本要求

国际人用药品注册技术协调会(ICH)发布的eCTD规范里,对编码格式有明确要求。规范建议所有提交的文件都应该使用UTF-8编码,这是国际标准,也最能保证跨语言的兼容性。

不过呢,规范是规范,实际执行起来各个地区可能会有一些差异。有些国家或地区的审评机构可能有自己额外的具体要求,这一点需要特别注意。下面我会详细说说不同地区的情况。

中国NMPA的具体规定

说到咱们国家药品监督管理局的规定,这块内容是很多企业最关心的。根据NMPA发布的eCTD技术规范和实施指南,中文申报资料的编码格式要求如下:

文件类型 推荐编码 说明
XML backbone文件 UTF-8 必须使用UTF-8无BOM格式,这是强制要求
PDF文件 PDF内嵌字体 虽然不直接涉及文本编码,但要确保字体支持中文
其他附件文档 推荐UTF-8 建议使用UTF-8,兼容性最好

这里要特别强调一点,XML文件必须使用UTF-8编码,而且是不带BOM(Byte Order Mark)的版本。为什么特别强调不带BOM呢?因为有些Windows系统默认保存UTF-8时会带上BOM标记,而某些审评系统的解析器对BOM很敏感,可能会报错。

我们康茂峰在协助客户申报时,曾经遇到过这样一个情况:客户自己准备的XML文件,提交后系统报错说编码无效。排查了一圈发现,就是BOM标记捣的鬼。后来用专业工具去掉了BOM,问题就解决了。所以这个细节看着小,但影响很大。

实际制作过程中的常见问题

理论说完了,咱们聊聊实际操作中经常遇到的问题。这些都是我们在工作中积累的经验,希望对你有帮助。

办公软件导致的编码陷阱

很多编辑文档时喜欢用Word或者记事本,这里面就有学问了。比如用记事本另存为UTF-8时,默认可能不带BOM,这个是对的。但如果你用某些国产软件,它们可能默认用GBK或者GB2312编码保存,当时看着没问题,提交到系统里就乱码了。

Word的问题更隐蔽一些。你在Word里写中文内容,另存为UTF-8文本文件时,Word可能会对内容做一些转换,比如把特殊的弯引号换成直引号之类的。如果你对文档内容要求精确,这种转换就可能带来问题。

PDF文件里的编码隐患

eCTD提交的大部分核心文档是PDF格式。PDF本身是二进制格式,不存在"编码"这个说法,但PDF里嵌入的字体决定了中文能不能正确显示。

有些企业为了文件体积小,会使用系统的内置中文字体,比如宋体。但这里面有个风险:如果审评机构的电脑上没有安装对应的字体,你的中文内容可能显示不出来,或者显示为空白。正确的做法是在生成PDF时嵌入完整的中文字体,确保无论在什么机器上打开,文字都能正确显示。

中药名和特殊字符的处理

药品注册申报中经常会有一些特殊字符,比如中药的异体字、药品的化学符号、上标下标等。这些字符如果编码处理不当,很容易出问题。

举个例子,有些中药名称里的生僻字,GBK编码可能不支持,用UTF-8就没问题。还有化学式里的下标数字,用普通的数字代替就不规范,必须用真正的下标字符。如果你的系统编码不支持这些特殊字符,就会出现显示错误。

我们总结的实战建议

基于多年的实践经验,我们整理了几条建议,希望对你有帮助:

  • 统一编码标准:从项目开始就规定所有文档使用UTF-8编码,不要等到要提交了才临时统一,那样很容易出错。
  • 工具选择要慎重:推荐使用专业的eCTD编辑软件或者验证工具,这些工具通常会对编码做强制检查,不合格的文档无法生成。
  • 提交前必须验证:在正式提交前,使用eCTD验证工具进行全面检查。验证工具会检测编码是否正确,文件格式是否规范,这些问题早发现早解决。
  • 保留原始文件:所有源文件都要保留好编码信息。如果审评机构反馈编码问题,你可以快速定位和修改。
  • 关注政策更新:NMPA的eCTD规范可能会更新,建议定期关注官方发布的最新指南,确保自己的流程符合最新要求。

关于验证的那些事儿

eCTD提交前有一个重要环节就是验证(Validation)。验证工具会检查文档的结构、编码、链接有效性等各方面。编码相关的验证通常包括这些内容:

首先是XML编码声明检查。XML文件开头必须明确声明编码类型,比如<?xml version="1.0" encoding="UTF-8"?>。如果声明的编码和实际文件编码不一致,验证就会报错。

然后是特殊字符检查。验证工具会扫描文档中的所有字符,确保它们都在选定的编码范围内。如果你的编码声明是UTF-8,但文档里出现了UTF-8不支持的字符,这显然是有问题的,需要排查原因。

还有文件头检查。eCTD对各种文件的头部格式有要求,包括某些特定的元数据标签。如果头部信息缺失或格式错误,验证也不会通过。

建议在准备阶段就频繁进行验证,不要等到最后一次性验证所有文件。那时候如果发现一大堆问题,修改起来会非常痛苦,而且容易遗漏。

写在最后

eCTD电子提交看起来是个技术活,但说到底,核心思路就是"规范化"三个字。编码格式的规定,不是为了为难申报企业,而是为了让整个药品注册流程更高效、更准确。想象一下,如果每个国家的审评机构都要花大量时间去处理编码问题,那整个药品审批的效率得有多低。

所以啊,虽然这篇文章讲了不少技术细节,但最核心的建议其实很简单:严格按规范来,选择对的工具,提交前仔细验证。这些看似麻烦的前期工作,其实是在给你的申报提速。

如果你在实际操作中遇到什么具体问题,也可以多跟同行交流交流。很多企业都是在踩坑中积累经验的,分享和交流能少走很多弯路。祝你申报顺利。

联系我们

我们的全球多语言专业团队将与您携手,共同开拓国际市场

告诉我们您的需求

在线填写需求,我们将尽快为您答疑解惑。

公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话:+86 10 8022 3713

联络邮箱:contact@chinapharmconsulting.com

我们将在1个工作日内回复,资料会保密处理。