
前两天有个同行朋友问我,他们在准备一份药品注册申报资料的时候,提交系统提示有"非法字符",愣是找不到问题出在哪里。折腾了大半天,最后发现是一个希腊字母µ在捣乱。这事儿让我想起来,eCTD电子提交中特殊字符的处理,确实是个容易被忽视但又相当关键的问题。今天就聊聊这个话题,把我这些年积累的一些经验分享出来。
在说怎么处理之前,咱们先搞清楚特殊字符为什么会给eCTD提交带来麻烦。你想啊,药品注册涉及的内容五花八门,科学文献里有各种符号,临床数据中会有计量单位,药品名称和化学名称里也可能出现一些特殊符号。这些字符在我们日常办公软件里显示得好好地,怎么一到提交系统就出问题了呢?
这就要从文件编码说起了。eCTD提交对文件格式有严格的要求,所有的文档都必须符合国际通用的编码标准。简单理解就是,系统只认识它"听得懂"的字符,那些不在它"词汇表"里的字符,就会被当成乱码或者非法字符处理。更麻烦的是,不同国家和地区的监管机构使用的审阅系统可能不一样,同一个字符在这个系统里显示正常,换个系统可能就变成乱码甚至问号。
我记得康茂峰在协助药企进行eCTD申报的时候,第一步就是做字符规范化检查,这一步看似简单,却能帮客户避免很多后续的返工。有数据显示,超过30%的eCTD提交退回问题都与特殊字符有关,这个比例算是相当高了。
说到特殊字符,很多人的第一反应是那些看得见的符号,比如©、™、±这些。其实在eCTD语境下,特殊字符的范围要广得多。我整理了一个表格,把常见的问题字符类型列了出来,看看你是不是也遇到过类似的情况。
| 字符类型 | 常见示例 | 出现场景 |
| 希腊字母 | α、β、γ、μ、Ω、Δ | 化学名称、计量单位、科学公式 |
| 数学符号 | ±、×、÷、√、∞、≈、≠ | 临床数据、统计分析、剂量描述 |
| 上标下标 | H₂O、m³、cm⁻¹、CO₂ | 化学式、浓度单位、计量单位 |
| 特殊引号和破折号 | ‘’、""、–、— | 引用内容、药品名称中的连字符 |
| 货币符号 | €、£、¥、$ | 价格信息、研究费用 |
| 版权和商标 | ©、®、™、§ | 参考文献、专利信息 |
| 其他特殊符号 | ·、°、′、″、※、◇ | 单位标注、注释符号、强调符号 |
上面这个表格涵盖的是比较常见的类型,实际工作中可能还会遇到更多。举个具体的例子,药品说明书里经常出现的µg(微克),这个µ就是典型的问题字符。还有像℃这个摄氏度符号,虽然咱们天天用,但有些系统就是不认识它。
在聊怎么处理之前,我想先说说几个我亲眼见过的误区。这些误区不解决,后面再谈方法也是白搭。
第一个误区是"复制粘贴大法"。很多人习惯从Word或者PDF里直接复制文本到提交文档中,觉得只要看着一样就行。实际上,复制粘贴会把你看不到的格式代码也一并带过去,这些隐藏的代码在纯文本环境下就会原形毕露。我见过最夸张的情况,一个文档从Word粘过来之后,带了将近两百个不可见的特殊字符。
第二个误区是依赖软件自动转换。现在很多编辑软件都有"智能转换"功能,但这些功能有时候会帮倒忙。比如你输入个摄氏度符号,它可能给你转换成大写的C加一个上圈,虽然看起来差不多,但含义完全不同。eCTD提交对准确性要求极高,一个符号的改变可能影响整个文档的专业性和可信度。
第三个误区是忽视字体依赖。有些特殊字符其实不是字符本身的问题,而是字体的问题。你在自己电脑上用某种字体能显示这个字符,换个电脑或者系统,可能就显示不出来了。这种情况特别坑,因为你本地看着没问题,提交到监管机构那边就全是乱码。
说了这么多问题,总得给大家一些实用的解决办法。以下这些方法经过实践检验,效果还是比较可靠的。
康茂峰在处理eCTD项目的时候,一般会在项目启动阶段就制定好字符规范,明确哪些字符可以用,哪些字符需要替换。这个"白名单"机制听起来简单,做起来却能省去很多麻烦。
具体操作上,你可以把所有需要用到的特殊字符列个清单,逐一确认它们在目标监管系统中的兼容性。比如欧洲药品管理局(EMA)和美国食品药品监督管理局(FDA)对字符集的支持可能有细微差别,提前了解这些差异很有必要。
对于清单之外的字符,一律采用替代方案。比如希腊字母µ可以写成"mc"或者"micro",℃可以写成"degC",±可以写成"plus or minus"。虽然看起来没那么美观,但兼容性是最好的。
手动检查字符既费时又容易漏掉,这时候借助专业工具就很有必要。现在市面上有一些专门用于eCTD文档检查的软件,它们内置了字符验证功能,可以自动识别出文档中的特殊字符并给出修改建议。
这些工具的工作原理一般是预先设定好监管机构认可的字符集,然后扫描文档,找出所有不在这个字符集里的字符。有些高级工具还能自动生成替换建议,一键完成修改。不过我建议在使用自动替换功能之前,还是人工复核一下比较保险,毕竟机器的理解能力还是有限的。
文件编码是个技术活,但对于解决特殊字符问题非常重要。eCTD提交一般要求使用UTF-8编码,这是目前最通用的字符编码标准,能够支持世界上绝大多数的文字和符号。
检查文件编码的方法很简单:用记事本打开文档,然后另存为,在保存对话框的"编码"选项里选择UTF-8,再覆盖保存就可以了。如果你不确定当前文件的编码是什么,也可以用一些专门的编码检测工具来查看。
需要注意的是,编码转换可能会导致一些老旧文档出现乱码,所以最好在转换之前做好备份。还有一点,Excel文件的编码处理比Word复杂一些,如果Excel里有特殊字符,可能需要单独处理。
上标下标在化学式和计量单位中用得特别多,比如H₂O、m³、mg/mL这些。处理不好也是重灾区。
在Word里,上标下标的设置方法是:选中要设置为上标的字符,然后按Ctrl+Shift++;要设置为下标的话,按Ctrl+=。这个快捷键组合非常实用,建议记住。
但这里有个坑:如果你的文档最终要转换成PDF提交,那么一定要确保在Word里正确设置了上标下标,因为PDF会忠实反映源文件的格式。如果你是直接编辑PDF文件,也要使用PDF编辑器自带的上标下标功能,不要用简单的字体放大来代替。
如果你经常需要进行eCTD提交,我强烈建议建立一套标准化的文档模板。这些模板里已经把常用的特殊字符处理好了,你只需要往里面填充内容就行。
模板里应该包括:统一的字体和字号、规范的页眉页脚、预设的上标下标样式、经过验证的特殊字符使用规范。康茂峰的很多长期客户都在使用我们帮忙定制的模板,普遍反馈效率提升了不少,返工率也明显下降。
eCTD不是一把钥匙开所有的锁,不同的监管机构对文档格式,包括特殊字符的处理,有各自的要求。下面说说几个主要地区的特点。
美国FDA的eCTD提交对字符集的要求相对宽松,UTF-8编码基本能覆盖大部分需求。但FDA的审阅系统对某些字体支持不好,所以即使字符本身没问题,如果字体选得不合适,也可能出现显示问题。FDA官方有推荐使用的字体清单,建议在提交前对照检查一下。
欧洲EMA的要求则要细致一些,他们对某些特定符号的使用有明确规定。比如在临床试验信息的提交中,日期格式、计量单位都有严格标准,不符合规范的话会触发验证警告。
日本的PMDA在字符处理上比较特殊,因为涉及到日文和英文的混排问题。如果你同时向多个监管机构提交,需要特别注意字符在不同语言环境下的兼容性。
中国NMPA这些年也在大力推进eCTD建设,对格式规范的要求越来越严格。中文特殊字符的处理尤其需要注意,比如中文标点符号和英文标点符号虽然在形态上差不多,但在编码上是完全不同的字符,混用可能会出问题。
聊了这么多理论,最后说点实操层面的建议吧。
第一,养成边写边检查的习惯。不要等到文档全部写完了再回头检查特殊字符,那样工作量大而且容易漏。最好是每写完一个段落就用工具扫描一下,发现问题及时处理。
第二,重视文档转换环节。很多问题出在从Word转PDF的过程中。转换之前务必仔细预览,检查特殊字符是否正确显示。转换过程中如果弹出什么警告信息,不要轻易忽略,仔细读一下内容。
第三,保留原始编辑文件。eCTD提交之后,如果监管机构要求修改,你可能需要回到原始文件进行编辑。如果原始文件因为编码问题已经损坏,那麻烦就大了。所以一定要备份好原始的Word或Excel文件。
第四,建立问题库。每次提交过程中遇到的特殊字符问题都记录下来,总结经验教训。时间长了,你就有一套自己的"避坑指南"了。
eCTD电子提交中的特殊字符处理,看起来是个小问题,但处理不好的话会影响整个申报进度甚至导致退回重审。希望今天的分享能给大家带来一些帮助。
如果你在实际操作中遇到什么具体问题,也可以和同行多交流交流。药品注册这个圈子不大,大家互相分享经验,共同进步,才能把事情做得更好。
