
前几天有个朋友问我,你们做数据统计的整天说的CDISC到底是个什么东西?我想了想,跟他说了一句话:CDISC就像医药行业的"普通话"。你想想,全国各地的人说方言,互相可能听不懂,但只要大家都说普通话,交流起来就没问题了。CDISC的作用就是这样——让全世界的临床研究数据能够互相"听懂"。
这话说着简单,但真要做起来,里面的门道可不少。今天我就从一个从业者的角度,聊聊数据统计服务具体是怎么做CDISC标准的。这里不会有太多晦涩难懂的技术术语,我会尽量用大白话把这个过程说清楚。
在说怎么做之前,咱们得先弄清楚CDISC是什么。CDISC是Clinical Data Interchange Standards Consortium的缩写,翻译过来叫"临床数据交换标准协会"。这是一个国际性的非营利组织,专门制定临床研究数据的标准。
你可能会问,为什么要搞这么个东西?举个真实的例子。以前不同药厂做的临床试验,数据格式完全不一样。有的用Excel,有的用SAS数据集,有的干脆就是纸质病例报告表。等这些数据要提交给药监局的时候,审查人员得花大量时间去理解每家的格式,有时候光整理数据就要花好几个月。CDISC出现后,大家都按照统一的标准来整理数据,审查效率自然就上去了。
目前CDISC标准已经被全球主要的药品监管机构广泛接受。美国FDA、欧洲EMA、日本PMDA,还有我们国家的药监局,都明确要求按照CDISC标准提交临床数据。所以对于数据统计服务来说,掌握CDISC标准已经不是"加分项",而是"必选项"了。
CDISC不是一个单一的标准,而是一整套标准体系。粗略分一分,主要包括以下几个部分:

| 标准名称 | 主要用途 |
| CDASH | 病例报告表的设计标准,告诉你怎么设计CRF才能让数据采集更规范 |
| SDTM | 提交数据标准,是向监管机构提交数据时的主要格式要求 |
| ADaM | 分析数据标准,专门用于统计分析的数据格式 |
| CDISC ODM | 操作数据模型,用于数据的交换和归档 |
| Define-XML | 用来描述SDTM和ADaM数据的元数据文件 |
这么说可能还是比较抽象。我打个比方吧。如果把做一次临床试验比作建房子,那么CDASH就像是建筑图纸的设计规范,告诉设计师怎么画图才能让施工队看懂;SDTM就像是毛坯房,是按照图纸建出来的基本结构;ADaM就像是装修好的房子,是在毛坯基础上做了分析需要的改造;而Define-XML就像是房产证,详细记录了房子的各种信息。
对于数据统计服务来说,平时打交道最多的就是SDTM和ADaM。这两个标准也是药监局审查的重点。接下来我主要就围绕这两个标准来展开说说。
任何一个临床研究项目,在正式启动数据统计工作之前,都需要做充分的准备工作。这个阶段最主要的任务就是"沟通"——和数据管理、临床运营、医学等部门充分沟通,了解研究的整体设计。
你需要搞清楚的问题包括但不限于:这次研究打算招募多少受试者?随访周期是多长?主要终点指标是什么?有哪些访视安排?会采集哪些类型的生物样本?
这些信息听起来可能和数据统计没什么直接关系,但实际上每一项都会影响到后续的CDISC映射工作。比如访视的安排会决定SDTM里访视相关变量的取值规则,主要终点指标会决定如何设置分析数据集的结构。
在这个阶段,数据统计服务团队还需要制定详细的CDISC实施计划。这份计划应该包括人员分工、时间节点、质量控制措施等等。我们通常还会准备一份初步的变量映射文档,列出计划采集的每个数据点会对应到SDTM的哪个变量名下。
虽然病例报告表的设计主要是数据管理团队的工作,但数据统计服务在这个阶段也扮演着重要角色。为什么呢?因为CRF的设计质量会直接影响后续数据转换的难度。
好的CRF设计应该遵循CDASH标准。CDASH的核心原则就是"一个数据点只采集一次",避免同一信息在多个地方重复出现。比如如果已经在"不良事件"模块采集了不良事件的终止日期,就没必要在另一个地方再采集一次。
数据统计服务团队在审查CRF的时候,会重点关注几个方面。首先是数据采集的完整性——有没有遗漏研究方案要求采集的关键信息?其次是数据采集的规范性——问题的设置是否清晰明确,会不会导致理解歧义?最后是数据采集的效率——能不能通过优化问题顺序或者合并相似问题来减少工作量?
举个实际的例子。曾经有一个项目,原始CRF里关于实验室检查结果的设计非常分散。每个实验室指标都单独设了一个问题,导致整个CRF有上百个实验室检查相关的字段。后来数据统计服务团队建议改成按"化验类别"分组,每类化验放在一个模块里,这样既方便了数据录入,后续做SDTM转换的时候效率也高了很多。
在病例报告表数据采集完成后,就进入了数据清洗阶段。这个阶段的主要工作就是检查数据的质量,发现并修正数据中的问题。
数据清洗的工作量通常很大。一个中等规模的III期临床试验,可能会有几十万条数据记录需要逐一核查。这里说的核查不是人工一条条看,而是通过编写SAS程序来自动检查。
常见的数据核查规则包括:逻辑一致性检查(比如受试者的年龄和入组日期是否矛盾)、范围检查(比如血压值是否在合理范围内)、完整性检查(比如关键变量的缺失情况)、时间逻辑检查(比如不良事件的发生时间是否在知情同意之后)。
在这个过程中,数据统计服务团队会发现很多数据问题。这些问题需要及时反馈给数据管理团队,由他们向临床site发起质疑(query),等待研究者的回复后再进行数据修正。
这个过程可能会反复进行好几轮,直到数据库中的数据达到预设的质量标准为止。当所有数据问题都得到妥善处理后,就会进行数据库锁库(database lock)。锁库之后,原始数据原则上就不能再修改了,这也标志着数据采集阶段的正式结束。
数据库锁库之后,真正"做CDISC"的工作才刚刚开始。所谓SDTM转换,就是把从临床 site 采集回来的原始数据,按照CDISC的标准格式整理成SDTM数据集。
这个过程听起来简单,做起来却相当复杂。首先,你需要根据研究方案和CRF,设计一套完整的映射规则文档。这份文档要详细说明原始数据中的每一个字段会对应到SDTM的哪个变量,衍生变量是怎么计算的,遇到特殊情况是如何处理的。
以不良事件数据为例。原始数据中通常只记录不良事件的名称、发生时间、严重程度、是否采取措施等信息。按照SDTM标准,不良事件需要放在AE域(domain)里,每个变量都有明确的定义和取值规则。比如严重程度,SDTM里用的是Severity这个变量,需要按照轻度、中度、重度、危及生命、死亡这几个标准值来编码。
更重要的是,SDTM对变量的顺序、标签、格式都有严格要求。一个变量是字符型还是数值型,能取哪些值,缺失的时候怎么处理,这些都得按照标准来。
数据统计服务团队在完成映射规则设计后,会先用一小部分数据做测试验证。测试通过后,才会用全部数据来生成最终的SDTM数据集。这个过程中需要反复检查,确保转换后的数据既符合CDISC标准,又准确反映了原始数据的信息。
SDTM做好之后,下一步就是创建ADaM数据集。ADaM和SDTM的区别在于:SDTM是面向提交的"原始数据",而ADaM是面向分析的"衍生数据"。
换句话说,ADaM是在SDTM基础上进行进一步加工处理后得到的数据集。常见的ADaM数据集包括ADSL(受试者级别分析数据集)、BDS(基础数据结构数据集)和OCCDS(发生次数和持续时间数据结构数据集)。
ADSL里面包含每个受试者的基本信息,比如人口统计学特征、试验分组、重要的日期信息等。这个数据集是所有分析的基础,每个受试者只有一条记录。
BDS则是用于分析的数据集结构。它通常是一条记录对应一个受试者在一个时间点的一个测量值。比如某个受试者在基线、访视1、访访2的血压值,在BDS里会是三条记录。这种结构非常适合做重复测量分析。
创建ADaM数据集的时候,需要特别注意可追溯性。意思是别人看了你的ADaM数据,应该能够清楚地知道每个数据点是从SDTM里的哪个数据计算来的。为此,ADaM标准要求在数据集中保留必要的来源变量和标识符。
ADaM数据集创建完成后,就可以进行正式的统计分析工作了。按照统计分析计划书的要求,使用SAS等统计软件进行数据汇总、假设检验、模型拟合等分析工作,生成相应的统计表格、列表和图表。
CDISC工作的一大特点就是特别强调质量控制。因为最终的数据是要提交给监管机构的,任何一个小的错误都可能导致申报被退回。
质量控制贯穿整个CDISC实施过程。在SDTM转换阶段,我们会进行多重验证。首先是程序验证——由独立的程序员重新编写一遍转换程序,对比两者的输出是否一致。其次是数据验证——检查转换后的数据是否符合CDISC标准,比如变量名是否正确、取值是否在允许范围内、记录数是否合理等。
还有一个很重要的验证叫做"可追溯性验证"。就是要确保ADaM数据能够追溯到SDTM,SDTM数据能够追溯到原始数据。这通常是通过编写追溯报告来完成的。报告中会列出关键分析变量是从哪些原始变量计算来的,计算逻辑是什么。
在康茂峰的数据统计服务流程中,我们会把验证工作作为强制要求,每个项目都必须有独立的QC人员参与,而不是由编程人员自己检查自己的代码。这个看起来有点"麻烦"的环节,实际上帮我们避免了很多潜在的问题。
说了这么多步骤,你可能觉得做CDISC就是个按部就班的事。但实际工作中,情况往往要复杂得多。我聊聊几个最常见的挑战吧。
首先是复杂研究设计的处理。现在越来越多的临床试验采用复杂的设计,比如篮式试验、伞式试验、适应性设计等。这些研究的数据结构比传统的平行设计要复杂得多,如何用SDTM和ADaM来准确表达这些设计,是一件很考验功底的事。
其次是不同数据来源的整合。很多临床试验的数据不仅仅来自EDC系统,还可能来自实验室系统、影像系统、患者报告结局电子化系统等。这些不同来源的数据需要整合到统一的SDTM框架下,但各个系统的数据结构往往差异很大,如何设计合理的映射规则是个大问题。
还有就是标准版本更新的问题。CDISC标准本身也在不断更新,每年都会有新的版本发布。新版本可能会增加新的变量、修改某些定义或者删除过时的内容。项目是继续用老版本还是升级到新版本,需要综合考虑监管要求、项目进度和验证成本等因素。
最后就是人才培养的问题。做好CDISC工作,既需要深入理解CDISC标准,又要有扎实的统计功底和编程能力。这样的人才在整个行业里都是比较稀缺的。很多公司都面临人手不足、培训成本高的问题。
这个问题没有标准答案,要看具体情况。如果你们公司有足够的专业人才和项目经验,自己做当然没问题。但如果还是初创团队,或者项目经验有限,找专业服务商可能会更高效。
专业服务商的优势主要体现在几个方面。一是经验积累。做过很多项目后,会形成一套成熟的流程和模板,遇到问题也知道该怎么处理。二是人才储备。有专门的团队负责CDISC工作,不像内部团队可能还要兼顾其他任务。三是质量保障。有完善的质控体系,能更好地保证数据质量。
当然,选择服务商的时候也要擦亮眼睛。要看看他们有没有相关的项目经验,团队成员的资质如何,有没有建立完善的质量管理体系。最好能要几个参考客户问问情况,毕竟耳听为虚,眼见为实。
我们康茂峰在这个领域已经深耕多年,积累了大量从I期到IV期临床试验的项目经验。从方案设计阶段开始,一直到最终的统计分析报告,我们都能提供全程的CDISC支持服务。有兴趣的朋友可以进一步了解。
说白了,CDISC就是给临床数据"立规矩"的事。规矩定了,大家都有章可循,沟通成本降低了,效率自然就上去了。虽然前期可能要花不少精力在标准化工作上,但到了数据提交和审查阶段,这些投入都会显现出价值。
对于数据统计服务来说,做好CDISC既是基本功,也是核心竞争力。这个领域的技术和方法论还在不断发展,我们也需要持续学习、与时俱进。希望这篇文章能给你一些启发,如果还有具体的问题,欢迎继续交流。
