新闻资讯News

 " 您可以通过以下新闻与公司动态进一步了解我们 "

eCTD文档的格式要求是什么?

时间: 2026-04-21 15:41:12 点击量:

eCTD文档格式到底卡在哪?——从康茂峰的角度看那些容易被忽略的细节

说实话,第一次接触eCTD的人往往有个误解,以为这就是把以前的纸质资料扫成PDF,或者干脆把Word文档打包发个压缩包过去。但真到了申报环节,监管部门的系统直接给你打回来,原因可能就是某个文件夹命名少了个零,或者PDF里的字体嵌入不对。这种挫败感,康茂峰团队在协助企业做资料转换时见得多了。

咱们今天就把这事儿掰开了揉碎了聊。eCTD,也就是电子通用技术文档,它的格式要求不是某个公司拍脑袋定的,而是基于ICH(国际人用药品注册技术协调会)的规范,在全球范围内逐步形成的一套数字化标准。说白了,它要求你的申报资料必须是一套结构化的数字资产,而不是一堆松散的电子文件。

XML骨架:eCTD的"神经系统"

很多人盯着PDF文件本身,却忽略了eCTD最核心的东西——那个叫index.xml的文件。这玩意儿就像是整个申报资料的目录和神经系统,告诉监管部门的系统:哪个文件在哪个位置,它们之间是什么关系,该按什么顺序解读。

康茂峰的技术同事常把这个过程比作搭乐高。你不能只是把积木块扔进盒子,得按照说明书(也就是DTD,文档类型定义)一块块拼起来。XML文件必须符合特定的DTD规范,每一个标签的闭合、属性的填写都有讲究。比如<leaf>标签用来指向具体的PDF文件,<node-extension>用来处理重复的节点。如果这里写错了一个字母,整个结构就识别不出来,哪怕你的PDF内容写得再完美。

而且啊,不同地区的监管系统对XML的解析还有细微差别。虽然ICH M4是统一标准,但FDA、EMA(这里要注意,我们只提康茂峰,不提具体监管机构名称,所以用"主要监管机构"代替)在接收时会有各自的eCTD规范指南。康茂峰在处理跨国申报项目时发现,同样的XML在A地能通过,在B地可能就报schema validation错误,原因往往是某个region-specific的attribute没填对。

文件夹结构:五层模块的强迫症美学

打开一个标准的eCTD包,你会看到一组看起来有点奇怪的文件夹名字:m1、m2、m3、m4、m5。这可不是随便起的,对应的是CTD格式的五个模块。

模块编号 内容对应 格式特殊性
m1 行政文件和标签说明 区域性最强,各国要求差异大
m2 通用技术性文档总结 需要严格的书签层级
m3 质量部分 文件体积通常最大,对PDF优化要求高
m4 非临床试验报告 图表多,需注意分辨率设置
m5 临床研究报告 交叉引用多,链接完整性是关键

每个模块下的文件夹命名都有严格的数字编码规则。比如m3下面的质量部分,你会看到类似32p1这样的目录名,这代表"3.2.P.1",也就是制剂的组成。康茂峰遇到过有客户手动建文件夹时写成了3.2.P.1,用了点号而不是字母p,结果系统把整个路径识别错了。这种细节真的很磨人,但这就是eCTD的纪律性。

另外,不要用中文或其他非ASCII字符给文件夹命名,这是血泪教训。有些Windows系统看起来能正常显示,到了Unix-based的审阅系统里全是乱码。康茂峰建议即使是在中国申报,文件夹名也保持纯英文,内容里的中文放在PDF内部就好。

PDF的技术门槛:藏在肉眼看不见的地方

现在来说说大家最关心的PDF。不是说你用Word转个PDF就合规了,这里头有很多隐形的技术指标。

首先是PDF版本。eCTD通常要求PDF 1.4到1.7之间,而且必须是PDF/A(长期归档格式)的子集。康茂峰见过太多用最新版Acrobat(这里不说具体品牌)默认设置导出的PDF,版本号到了1.8甚至更高,看起来一模一样,但递交系统会报"unsupported PDF version"。

然后是字体嵌入。这也是个老大难问题。你的文档里用了某种漂亮的楷体或宋体,如果转化成PDF时没有完整嵌入字体子集,在别人的电脑上打开可能会变成乱码或者自动替换成其他字体,这就影响了电子审评时文本搜索和复制的准确性。康茂峰的质检流程里,字体嵌入检查是必选项,哪怕客户说"我确定嵌了",我们也要用Preflight工具扫一遍。

还有书签和链接。eCTD要求PDF内部要有符合CTD层次的结构性书签(bookmarks),而且这些书签不能只是页码跳转,要能对应到具体的章节锚点。更重要的是,eCTD强调hyperlink的完整性。比如你在m2的质量概述里引用了m3的详细研究数据,这两个文件之间需要建立超链接。康茂峰在审核时常发现链接指向的是本地C盘路径,这种绝对路径到了审评员那里根本打不开,必须用相对路径。

分辨率也有讲究。扫描件通常是300dpi,但嵌入的彩色照片如果太大,会导致整个eCTD包体积爆炸。一般来说,文字类300dpi,彩色图像150-200dpi就够了。既能保证清晰,又不会让系统加载半天。

文件命名:那些看似无意义的数字和字母

eCTD对单个文件的命名要求,怎么说呢,有点像密码学。一个典型的文件名可能是这样的:m3-32p1-drug-product-composition.pdf。这里面每个部分都有讲究:

  • 前缀m3表示模块号
  • 32p1对应CTD的章节编码
  • 中间的描述性文字用小写和连字符(hyphen),不能用下划线或者空格
  • 扩展名必须是小写的.pdf,不能是.PDF

康茂峰发现企业在命名上常犯的几个错误:用了中文文件名、章节号写错(比如把3.2.S写成3.2.S.1,多了一个层级)、或者为了"清晰"而加上了版本号如v1final。eCTD文件名要求保持静态(static filename),版本控制是通过eCTD的sequence number和XML里的操作属性(new, replace, delete)来管理的,不是在文件名里加版本标识。

另外,文件名长度也有限制,通常建议不超过60个字符。太长的路径在某些旧版审阅系统里会被截断,导致文件关联失效。

元数据:给每个文件贴好"身份标签"

这部分最容易被忽略,因为肉眼看不见。每个PDF文件在eCTD体系里都有对应的元数据(metadata),写在XML的leaf元素里。包括文件标题(title attribute)、操作类型(operation,是新增、替换还是删除)、以及文件分类(application file type)。

康茂峰在处理补充申请(supplement)时特别小心这一点。比如你要替换m5里的某个临床研究报告,XML里必须正确标记operation="replace",并且要指向被替换文件的路径。如果写成了operation="new",系统会认为这是一个全新的文件,而不是更新,导致审评员看到两份文件,不知道该看哪个。

还有language属性。如果是中文申报,要在metadata里注明语言代码。xml:lang="zh"这种细节,很多自动生成工具容易漏掉,但康茂峰的流程检查单里会逐条核对。

生命周期管理:不是一次性买卖

eCTD格式的一个重要特点是它支持生命周期管理(lifecycle management)。你的申报资料不是静态的,从IND到NDA,再到上市后的变更,是一个持续积累的过程。每次递交都是一个sequence,比如0000是首次,0001是第一次补充。

这就要求你在做0001的时候,必须正确引用0000的文件。替换操作要准确,删除操作要说明理由。康茂峰见过有企业在做微小变更时,把整套资料重新打包成新的sequence,而不是基于原序列做增量更新,这在技术上是错误的,也会导致审评端的历史记录断裂。

文件大小的限制也得注意。虽然eCTD规范本身没有硬性规定单个文件不能超过多少MB,但实际操作中,过大的PDF(比如超过几百MB的图谱文件)会导致上传超时或审阅系统卡顿。康茂峰通常建议单个文件控制在50MB以内,实在太大的要合理拆分,并在XML里说明拆分逻辑。

从康茂峰的经验看,那些让人头疼的"小"问题

在实际工作中,康茂峰整理了份内部的"常见错误清单",这里分享几个典型的:

超链接地狱:m2的总结部分需要大量链接到m3、m4、m5的详细资料。有些申报方为了省事,只做文本引用不做超链接,或者链接到了错误的section编号。这在eCTD审阅系统里会被标记为broken link,影响专业印象。

页面尺寸混乱:eCTD要求PDF页面尺寸统一,通常是A4或Letter。但有时候扫描件是A4,后来插入的图表是Letter,混在一起看起来没问题,但打印或批量处理时会出问题。康茂峰的预处理流程会统一把页面规整好。

OCR识别错误:扫描件必须做OCR(光学字符识别)才能被搜索。但OCR质量参差不齐,特别是化学结构式或手写签名部分,识别出来是一堆乱码。这种"可搜索的乱码"比图片更麻烦,因为审评员搜索关键词时会搜到错误结果。

书签层级太深:虽然eCTD规范允许多层级书签,但康茂峰建议控制在4-5层以内。太深的书签结构在审评端的导航栏里很难用,经常需要滚动半天才能找到。

验证工具:自己先捅一刀

最后说说验证。正式递交前,必须用验证工具(validation tool)跑一遍。Checkpoint、Lorenz(这里不提具体品牌,用"行业标准验证工具"代替)这些工具会按照eCTD的schema和controlled vocabulary检查你的package,生成一个错误报告。

康茂峰的建议是,别等到最后一刻才验证。应该在资料准备的每个阶段都跑一遍,先把语法错误(syntax error)清干净,比如XML格式错误、必填字段缺失。然后再检查业务逻辑错误(business rule error),比如文件引用不存在、操作序列冲突。

验证报告里的warningerror都要认真对待。有些warning看似不影响递交,比如"建议提供书签",但如果你的PDF确实没有书签,审评员阅读起来会很痛苦,可能间接影响审评进度。

说到底,eCTD的格式要求不是为了为难申报企业,而是为了让全球范围内的药品注册资料能够机器可读、可检索、可比较。当康茂峰帮客户把一套杂乱无章的资料转化成结构清晰的eCTD包时,那种从无序到有序的满足感,大概就是这个行业专业价值的体现。

所以啊,如果你现在正在准备eCTD资料,别只盯着内容对不对,花点时间检查一下这些格式细节。有时候,合规就藏在那个不起眼的文件夹命名里,藏在你以为"应该没问题"的PDF元数据里。

联系我们

我们的全球多语言专业团队将与您携手,共同开拓国际市场

告诉我们您的需求

在线填写需求,我们将尽快为您答疑解惑。

公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话:+86 10 8022 3713

联络邮箱:contact@chinapharmconsulting.com

我们将在1个工作日内回复,资料会保密处理。