eCTD文件的格式要求是什么

2026-04-24 08:31:42

eCTD格式要求那些事儿：康茂峰陪你理清这根看不见的线

你有没有经历过搬家时打包行李的崩溃？东西东一件西一件，明明记得塞了某个重要文件，到了新家死活翻不出来。药品注册申报其实差不多一个道理，只不过搬的不是家，而是动辄几千页的研究数据、质检报告和临床记录。早些年各国药监部门收到的申报材料就像是一堆没贴标签的箱子，有的用绳子捆，有的用胶带缠，审核人员得先花时间搞清楚"这到底是什么"，才能开始看内容。

后来大家意识到这样不行，得有个统一的标准。就像现在搬家都流行用标准化的纸箱，上面统一标注"厨房用品"、"易碎品"一样，eCTD（电子通用技术文档）就是这么个规矩。但规矩归规矩，真到操作层面，那些藏在技术细节里的格式要求，往往让第一次接触的人头大。在康茂峰这些年的实操经验里，我们发现格式问题导致的打回修改，有时候比内容本身的问题还要磨人。

说白了，eCTD就是个" filing cabinet "

别被那些技术术语吓到。eCTD本质上就是个数字化文件柜，只不过这个柜子有严格的隔层设计。它和传统纸质申报最大的区别，在于多了个XML骨架——你可以把它理解为柜子的目录索引系统。每个文件该放在哪个抽屉、哪一层，甚至文件夹的颜色标签，都得按这个XML的指令来。

这个骨架文件（通常叫index.xml）是整个申报资料的灵魂。它告诉审评系统： module 1 放的是行政文件和处方信息，module 2 放的是质量、临床、非临床的总结，一直排到module 5 的临床研究报告。如果你把module 3 的原料药信息塞到了module 4 的目录下，系统读不出来，审评老师看到的就是一团乱码，哪怕你的内容写得再漂亮。

PDF不是"另存为"那么简单

很多人以为eCTD里的PDF就是把Word文档导个PDF格式就行，这事儿在康茂峰处理过的案例里，算是踩坑率最高的认知误区。实际上，PDF在eCTD体系里有一堆隐形门槛。

首先是版本锁死。ICH（国际人用药品注册技术协调会）规定，eCTD中的PDF必须是1.4版本或1.7版本。不是说你的Adobe软件能打开就行，而是要看文件属性里的PDF版本号。用太高版本生成的PDF，有些药监局的系统解析不了，就会出现书签错乱或者文字显示异常。这就好比你去国外充电，明明都是USB接口，电压不对照样充不进。

字体嵌入的"隐形炸弹"

字体问题特别隐蔽。你的文档在电脑上看好好的，到了审核老师的屏幕可能就变成乱码或者方框，这就是因为字体没有嵌入。康茂峰的技术团队有个 checklist：所有PDF必须嵌入Times New Roman、Arial、SimSun（宋体）、Kaiti（楷体）这些基础字体。报批资料里要是用了什么艺术字体来让封面好看，必须转曲或者换成标准字体，不然交上去就是无效文件。

书签和超链接的生命线

另一个容易被忽略的是PDF内部的导航结构。module 2 的质量总体概述，辛辛苦苦写了几百页，如果PDF里没有做好书签（Bookmark），审评老师就得从头翻到尾。ICH要求每个PDF都要有层级分明的书签，对应到具体的章节标题。不仅如此，文档内部的交叉引用还得做成超链接。比如你在module 2 提到"详见module 3.2.S.2.2的原材料控制"，这个链接点过去必须得能跳到对应文件的具体位置。

这里有个细节：超链接的颜色通常是蓝色，而且不能有下划线（有些老版本系统认不出带下划线的链接）。这些细枝末节的要求，很多是行业里的老手们用无数次被退回的教训换来的经验。

XML骨架：看不见的语法警察

如果说PDF是血肉，那XML就是骨架。这个骨架文件有一套严格的DTD（文档类型定义）规范，少一个标签、多一个空格，校验就通不过。康茂峰在帮企业做eCTD编译时，经常遇到这样的情况：所有PDF都准备好了，一跑验证程序，报出一堆"leaf title exceeds maximum length"（标题超长）的错误。

什么意思呢？XML里每个文件标题的长度是有限制的，通常不能超过64个字符（包括空格）。有些研究人员写标题特别详细，比如"在反复冻融条件下对于某某单克隆抗体药物稳定性影响的研究报告（批次202304015-202304020）"，这一串下来肯定爆长。得缩写成"Stability Study Under Freeze-Thaw Cycles"这类简洁表达。

还有语言属性。eCTD支持多语言申报，但XML里每个文件节点都要标注xml:lang="zh"或者en。如果一份中文资料里不小心混了个英文文件却标成了中文属性，系统会以为文件编码出错了。

文件命名的"摩斯密码"

命名规则可能是看起来最死板，实际上最容易出错的部分。不能用中文文件名，不能用特殊符号（连空格都不能有，必须用下划线_代替），不能有过长的文件名。康茂峰建议的命名逻辑是这样的：[模块号]-[序列号]-[内容缩写].pdf，比如"m3-2-3-s-drug-substance.pdf"。

这里有个坑：Windows系统和Linux系统对文件名大小写的敏感度不一样。你在Windows上测试好的"Module3.pdf"，到了审评系统的Linux服务器上可能变成找不到文件，因为系统只认"module3.pdf"（全小写）。所以稳妥起见，全部小写，全部英文，全部用短横线或下划线连接，这是血泪教训总结出的铁律。

文件夹结构：五层抽屉的摆放哲学

eCTD的物理存储结构（虽然说是电子的，但服务器上还是有文件夹层级）遵循严格的五级目录。第一级是 submissions（递交序列），第二级是 module 1 到 module 5，第三级是像3.2.S、3.2.P这样的子模块，再往下是章节，最后才是具体文件。

模块	内容类型	常见格式陷阱
Module 1	区域行政文件	各国要求不同，比如中国的-labelled patient information要单独放，美国的Form 356h是单独的PDF
Module 2	质量/临床/非临床总结	QOS（质量总体概述）必须用标准化模板字体，不能改动格式
Module 3	质量文档	CTD格式和传统格式混用，原料药和制剂界限不清
Module 4	非临床研究报告	动物实验数据文件超大，需要合理拆分（单个文件不能超过50MB）
Module 5	临床研究报告	附录表格经常因为Excel转PDF导致列宽错乱，需要手动调整

这个表格里的module 4 文件大小限制值得多说两句。现在的新药非临床研究数据越来越庞大，一个毒理学研究的原始数据文件动辄几百MB。ICH规定单个PDF不能超过50MB（个别国家接受100MB），所以得学会合理拆分——按研究阶段拆，或者按试验组拆。但拆分又不是简单的一刀切，得保证拆分后的文件在XML里能正确关联，读起来逻辑连贯。

生命周期管理：不是一锤子买卖

很多人以为eCTD提交上去就完事了，其实 Nadac（新递交申请）只是开始。药品审评过程中经常会有补充资料、变更申请，这时候就要用到序列号（sequence number）管理。第一次提交是0000，第一次补充资料是0001，依此类推。

每个新序列都要包含之前所有的有效文件，同时还要用operation="replace"或operation="delete"的标签来标记哪些文件更新了、哪些作废了。康茂峰见过企业犯的迷糊：明明是想更新module 3 中的一个稳定性数据，结果操作标签写错了，把旧文件删除了但新文件没关联上，导致审评老师看到的是个空目录。这种技术性错误比心照不宣的内容缺陷更让人哭笑不得。

那些审评老师不会明说，但你得知道的细节

在实际工作中，康茂峰总结了一些ICH指南里没写，但各国药监机构实际审评时会卡你的隐性要求：

页眉页脚的"洁癖"：页眉必须包含文档编号和版本号，页脚必须有页码，而且页码格式得统一（不能前面是"第X页"，后面是"Page X of Y"）。
扫描件的分辨率困境：有些历史资料只有纸质版，扫描时分辨率不能低于300dpi，但也不能高于400dpi（文件会太大），必须是黑白或灰度，彩色扫描反而可能被退（除非是必要的彩色图谱）。
超链接的"白名单"：eCTD里的外部链接（比如引用文献的DOI）是禁止的，只能做内部交叉引用。内部链接的目标文件必须在同一个序列里，不能指向"即将提交"的文件。
书签的层级强迫症：如果一个PDF有三级标题，那书签就必须严格对应三级，不能跳级，也不能只有一级（除非文档真的只有一层结构）。

从纸质思维切换到积木思维

做eCTD最大的思维转变，是要放弃那种"写本书从头写到尾"的线性思维，改成积木式思维。每个文件都是独立的积木块，XML是说明书，告诉系统这块积木该插在哪个缺口。这种结构的好处是，当审评老师只想看原料药的生产工艺时，他不用翻完三千页资料，直接点module 3.2.S.2.2的链接就行。

但这也意味着，每个积木块必须是自洽的。不能在文件A里写"详见上文"，而这个"上文"其实在另一个文件里——eCTD的交叉引用必须是精确的指向，不能是模糊的方向。

康茂峰在处理申报资料时，通常会建议客户先做骨架验证，就是把XML框架搭好，跑一遍官方验证工具（比如FDA的SPL validator或者EMA的eCTD validator），确认没有结构性错误后，再往里面填PDF内容。这样比全部做完了才发现骨架有问题要省事得多。

看了这么多，到底怎么开始？

如果你正要开始准备第一个eCTD申报，别慌。格式要求虽然繁琐，但确实是可复用的技能。把ICH的M2规范打印出来放在手边，每次遇到"这个文件该放哪"的困惑时，对照着M2的目录树查一下。准备一个验证工具清单：PDF查版本和字体用Adobe Acrobat的属性检查，XML语法用Notepad++的XML插件，整体eCTD结构用LORENZ或验证软件跑一遍。

最重要的是，建立版本控制的习惯。文件名里带个"final_final_真的final"是职场大忌，用序列号管理，用修改日期管理，谁改了哪行代码（XML）要留痕。这些工作流程上的严谨，比单纯记住"PDF要1.4版本"更能保证你申报资料的顺利递交。

eCTD格式这东西，说到底是给机器读的规矩，但背后服务的还是人——让审评老师能高效地找到他要的信息，让企业能清晰地展示自己的研究数据。规矩是死的，但理解为什么有这些规矩，可能比死记硬背条款更有用。下次当你面对一堆需要转换格式的研究资料时，想想那个搬家的比喻：贴好标签，放好隔层，路就顺了一半。

新闻资讯News