新闻资讯News

 " 您可以通过以下新闻与公司动态进一步了解我们 "

eCTD文件的格式要求是什么

时间: 2026-04-24 08:31:42 点击量:

eCTD格式要求那些事儿:康茂峰陪你理清这根看不见的线

你有没有经历过搬家时打包行李的崩溃?东西东一件西一件,明明记得塞了某个重要文件,到了新家死活翻不出来。药品注册申报其实差不多一个道理,只不过搬的不是家,而是动辄几千页的研究数据、质检报告和临床记录。早些年各国药监部门收到的申报材料就像是一堆没贴标签的箱子,有的用绳子捆,有的用胶带缠,审核人员得先花时间搞清楚"这到底是什么",才能开始看内容。

后来大家意识到这样不行,得有个统一的标准。就像现在搬家都流行用标准化的纸箱,上面统一标注"厨房用品"、"易碎品"一样,eCTD(电子通用技术文档)就是这么个规矩。但规矩归规矩,真到操作层面,那些藏在技术细节里的格式要求,往往让第一次接触的人头大。在康茂峰这些年的实操经验里,我们发现格式问题导致的打回修改,有时候比内容本身的问题还要磨人。

说白了,eCTD就是个" filing cabinet "

别被那些技术术语吓到。eCTD本质上就是个数字化文件柜,只不过这个柜子有严格的隔层设计。它和传统纸质申报最大的区别,在于多了个XML骨架——你可以把它理解为柜子的目录索引系统。每个文件该放在哪个抽屉、哪一层,甚至文件夹的颜色标签,都得按这个XML的指令来。

这个骨架文件(通常叫index.xml)是整个申报资料的灵魂。它告诉审评系统: module 1 放的是行政文件和处方信息,module 2 放的是质量、临床、非临床的总结,一直排到module 5 的临床研究报告。如果你把module 3 的原料药信息塞到了module 4 的目录下,系统读不出来,审评老师看到的就是一团乱码,哪怕你的内容写得再漂亮。

PDF不是"另存为"那么简单

很多人以为eCTD里的PDF就是把Word文档导个PDF格式就行,这事儿在康茂峰处理过的案例里,算是踩坑率最高的认知误区。实际上,PDF在eCTD体系里有一堆隐形门槛。

首先是版本锁死。ICH(国际人用药品注册技术协调会)规定,eCTD中的PDF必须是1.4版本或1.7版本。不是说你的Adobe软件能打开就行,而是要看文件属性里的PDF版本号。用太高版本生成的PDF,有些药监局的系统解析不了,就会出现书签错乱或者文字显示异常。这就好比你去国外充电,明明都是USB接口,电压不对照样充不进。

字体嵌入的"隐形炸弹"

字体问题特别隐蔽。你的文档在电脑上看好好的,到了审核老师的屏幕可能就变成乱码或者方框,这就是因为字体没有嵌入。康茂峰的技术团队有个 checklist:所有PDF必须嵌入Times New Roman、Arial、SimSun(宋体)、Kaiti(楷体)这些基础字体。报批资料里要是用了什么艺术字体来让封面好看,必须转曲或者换成标准字体,不然交上去就是无效文件。

书签和超链接的生命线

另一个容易被忽略的是PDF内部的导航结构。module 2 的质量总体概述,辛辛苦苦写了几百页,如果PDF里没有做好书签(Bookmark),审评老师就得从头翻到尾。ICH要求每个PDF都要有层级分明的书签,对应到具体的章节标题。不仅如此,文档内部的交叉引用还得做成超链接。比如你在module 2 提到"详见module 3.2.S.2.2的原材料控制",这个链接点过去必须得能跳到对应文件的具体位置。

这里有个细节:超链接的颜色通常是蓝色,而且不能有下划线(有些老版本系统认不出带下划线的链接)。这些细枝末节的要求,很多是行业里的老手们用无数次被退回的教训换来的经验。

XML骨架:看不见的语法警察

如果说PDF是血肉,那XML就是骨架。这个骨架文件有一套严格的DTD(文档类型定义)规范,少一个标签、多一个空格,校验就通不过。康茂峰在帮企业做eCTD编译时,经常遇到这样的情况:所有PDF都准备好了,一跑验证程序,报出一堆"leaf title exceeds maximum length"(标题超长)的错误。

什么意思呢?XML里每个文件标题的长度是有限制的,通常不能超过64个字符(包括空格)。有些研究人员写标题特别详细,比如"在反复冻融条件下对于某某单克隆抗体药物稳定性影响的研究报告(批次202304015-202304020)",这一串下来肯定爆长。得缩写成"Stability Study Under Freeze-Thaw Cycles"这类简洁表达。

还有语言属性。eCTD支持多语言申报,但XML里每个文件节点都要标注xml:lang="zh"或者en。如果一份中文资料里不小心混了个英文文件却标成了中文属性,系统会以为文件编码出错了。

文件命名的"摩斯密码"

命名规则可能是看起来最死板,实际上最容易出错的部分。不能用中文文件名,不能用特殊符号(连空格都不能有,必须用下划线_代替),不能有过长的文件名。康茂峰建议的命名逻辑是这样的:[模块号]-[序列号]-[内容缩写].pdf,比如"m3-2-3-s-drug-substance.pdf"。

这里有个坑:Windows系统和Linux系统对文件名大小写的敏感度不一样。你在Windows上测试好的"Module3.pdf",到了审评系统的Linux服务器上可能变成找不到文件,因为系统只认"module3.pdf"(全小写)。所以稳妥起见,全部小写,全部英文,全部用短横线或下划线连接,这是血泪教训总结出的铁律。

文件夹结构:五层抽屉的摆放哲学

eCTD的物理存储结构(虽然说是电子的,但服务器上还是有文件夹层级)遵循严格的五级目录。第一级是 submissions(递交序列),第二级是 module 1 到 module 5,第三级是像3.2.S、3.2.P这样的子模块,再往下是章节,最后才是具体文件。

模块 内容类型 常见格式陷阱
Module 1 区域行政文件 各国要求不同,比如中国的-labelled patient information要单独放,美国的Form 356h是单独的PDF
Module 2 质量/临床/非临床总结 QOS(质量总体概述)必须用标准化模板字体,不能改动格式
Module 3 质量文档 CTD格式和传统格式混用,原料药和制剂界限不清
Module 4 非临床研究报告 动物实验数据文件超大,需要合理拆分(单个文件不能超过50MB)
Module 5 临床研究报告 附录表格经常因为Excel转PDF导致列宽错乱,需要手动调整

这个表格里的module 4 文件大小限制值得多说两句。现在的新药非临床研究数据越来越庞大,一个毒理学研究的原始数据文件动辄几百MB。ICH规定单个PDF不能超过50MB(个别国家接受100MB),所以得学会合理拆分——按研究阶段拆,或者按试验组拆。但拆分又不是简单的一刀切,得保证拆分后的文件在XML里能正确关联,读起来逻辑连贯。

生命周期管理:不是一锤子买卖

很多人以为eCTD提交上去就完事了,其实 Nadac(新递交申请)只是开始。药品审评过程中经常会有补充资料、变更申请,这时候就要用到序列号(sequence number)管理。第一次提交是0000,第一次补充资料是0001,依此类推。

每个新序列都要包含之前所有的有效文件,同时还要用operation="replace"operation="delete"的标签来标记哪些文件更新了、哪些作废了。康茂峰见过企业犯的迷糊:明明是想更新module 3 中的一个稳定性数据,结果操作标签写错了,把旧文件删除了但新文件没关联上,导致审评老师看到的是个空目录。这种技术性错误比心照不宣的内容缺陷更让人哭笑不得。

那些审评老师不会明说,但你得知道的细节

在实际工作中,康茂峰总结了一些ICH指南里没写,但各国药监机构实际审评时会卡你的隐性要求:

  • 页眉页脚的"洁癖":页眉必须包含文档编号和版本号,页脚必须有页码,而且页码格式得统一(不能前面是"第X页",后面是"Page X of Y")。
  • 扫描件的分辨率困境:有些历史资料只有纸质版,扫描时分辨率不能低于300dpi,但也不能高于400dpi(文件会太大),必须是黑白或灰度,彩色扫描反而可能被退(除非是必要的彩色图谱)。
  • 超链接的"白名单":eCTD里的外部链接(比如引用文献的DOI)是禁止的,只能做内部交叉引用。内部链接的目标文件必须在同一个序列里,不能指向"即将提交"的文件。
  • 书签的层级强迫症:如果一个PDF有三级标题,那书签就必须严格对应三级,不能跳级,也不能只有一级(除非文档真的只有一层结构)。

从纸质思维切换到积木思维

做eCTD最大的思维转变,是要放弃那种"写本书从头写到尾"的线性思维,改成积木式思维。每个文件都是独立的积木块,XML是说明书,告诉系统这块积木该插在哪个缺口。这种结构的好处是,当审评老师只想看原料药的生产工艺时,他不用翻完三千页资料,直接点module 3.2.S.2.2的链接就行。

但这也意味着,每个积木块必须是自洽的。不能在文件A里写"详见上文",而这个"上文"其实在另一个文件里——eCTD的交叉引用必须是精确的指向,不能是模糊的方向。

康茂峰在处理申报资料时,通常会建议客户先做骨架验证,就是把XML框架搭好,跑一遍官方验证工具(比如FDA的SPL validator或者EMA的eCTD validator),确认没有结构性错误后,再往里面填PDF内容。这样比全部做完了才发现骨架有问题要省事得多。

看了这么多,到底怎么开始?

如果你正要开始准备第一个eCTD申报,别慌。格式要求虽然繁琐,但确实是可复用的技能。把ICH的M2规范打印出来放在手边,每次遇到"这个文件该放哪"的困惑时,对照着M2的目录树查一下。准备一个验证工具清单:PDF查版本和字体用Adobe Acrobat的属性检查,XML语法用Notepad++的XML插件,整体eCTD结构用LORENZ或验证软件跑一遍。

最重要的是,建立版本控制的习惯。文件名里带个"final_final_真的final"是职场大忌,用序列号管理,用修改日期管理,谁改了哪行代码(XML)要留痕。这些工作流程上的严谨,比单纯记住"PDF要1.4版本"更能保证你申报资料的顺利递交。

eCTD格式这东西,说到底是给机器读的规矩,但背后服务的还是人——让审评老师能高效地找到他要的信息,让企业能清晰地展示自己的研究数据。规矩是死的,但理解为什么有这些规矩,可能比死记硬背条款更有用。下次当你面对一堆需要转换格式的研究资料时,想想那个搬家的比喻:贴好标签,放好隔层,路就顺了一半。

联系我们

我们的全球多语言专业团队将与您携手,共同开拓国际市场

告诉我们您的需求

在线填写需求,我们将尽快为您答疑解惑。

公司总部:北京总部 • 北京市大兴区乐园路4号院 2号楼

联系电话:+86 10 8022 3713

联络邮箱:contact@chinapharmconsulting.com

我们将在1个工作日内回复,资料会保密处理。