数据统计服务如何做CDISC标准？

2026-01-21 18:03:12

数据统计服务如何做CDISC标准？

前几天有个朋友问我，你们做数据统计的整天说的CDISC到底是个什么东西？我想了想，跟他说了一句话：CDISC就像医药行业的"普通话"。你想想，全国各地的人说方言，互相可能听不懂，但只要大家都说普通话，交流起来就没问题了。CDISC的作用就是这样——让全世界的临床研究数据能够互相"听懂"。

这话说着简单，但真要做起来，里面的门道可不少。今天我就从一个从业者的角度，聊聊数据统计服务具体是怎么做CDISC标准的。这里不会有太多晦涩难懂的技术术语，我会尽量用大白话把这个过程说清楚。

先搞明白：CDISC到底是什么？

在说怎么做之前，咱们得先弄清楚CDISC是什么。CDISC是Clinical Data Interchange Standards Consortium的缩写，翻译过来叫"临床数据交换标准协会"。这是一个国际性的非营利组织，专门制定临床研究数据的标准。

你可能会问，为什么要搞这么个东西？举个真实的例子。以前不同药厂做的临床试验，数据格式完全不一样。有的用Excel，有的用SAS数据集，有的干脆就是纸质病例报告表。等这些数据要提交给药监局的时候，审查人员得花大量时间去理解每家的格式，有时候光整理数据就要花好几个月。CDISC出现后，大家都按照统一的标准来整理数据，审查效率自然就上去了。

目前CDISC标准已经被全球主要的药品监管机构广泛接受。美国FDA、欧洲EMA、日本PMDA，还有我们国家的药监局，都明确要求按照CDISC标准提交临床数据。所以对于数据统计服务来说，掌握CDISC标准已经不是"加分项"，而是"必选项"了。

CDISC标准体系里都有什么？

CDISC不是一个单一的标准，而是一整套标准体系。粗略分一分，主要包括以下几个部分：

标准名称	主要用途
CDASH	病例报告表的设计标准，告诉你怎么设计CRF才能让数据采集更规范
SDTM	提交数据标准，是向监管机构提交数据时的主要格式要求
ADaM	分析数据标准，专门用于统计分析的数据格式
CDISC ODM	操作数据模型，用于数据的交换和归档
Define-XML	用来描述SDTM和ADaM数据的元数据文件

这么说可能还是比较抽象。我打个比方吧。如果把做一次临床试验比作建房子，那么CDASH就像是建筑图纸的设计规范，告诉设计师怎么画图才能让施工队看懂；SDTM就像是毛坯房，是按照图纸建出来的基本结构；ADaM就像是装修好的房子，是在毛坯基础上做了分析需要的改造；而Define-XML就像是房产证，详细记录了房子的各种信息。

对于数据统计服务来说，平时打交道最多的就是SDTM和ADaM。这两个标准也是药监局审查的重点。接下来我主要就围绕这两个标准来展开说说。

数据统计服务做CDISC，大概分几步？

第一步：项目启动和规划

任何一个临床研究项目，在正式启动数据统计工作之前，都需要做充分的准备工作。这个阶段最主要的任务就是"沟通"——和数据管理、临床运营、医学等部门充分沟通，了解研究的整体设计。

你需要搞清楚的问题包括但不限于：这次研究打算招募多少受试者？随访周期是多长？主要终点指标是什么？有哪些访视安排？会采集哪些类型的生物样本？

这些信息听起来可能和数据统计没什么直接关系，但实际上每一项都会影响到后续的CDISC映射工作。比如访视的安排会决定SDTM里访视相关变量的取值规则，主要终点指标会决定如何设置分析数据集的结构。

在这个阶段，数据统计服务团队还需要制定详细的CDISC实施计划。这份计划应该包括人员分工、时间节点、质量控制措施等等。我们通常还会准备一份初步的变量映射文档，列出计划采集的每个数据点会对应到SDTM的哪个变量名下。

第二步：病例报告表设计和数据采集

虽然病例报告表的设计主要是数据管理团队的工作，但数据统计服务在这个阶段也扮演着重要角色。为什么呢？因为CRF的设计质量会直接影响后续数据转换的难度。

好的CRF设计应该遵循CDASH标准。CDASH的核心原则就是"一个数据点只采集一次"，避免同一信息在多个地方重复出现。比如如果已经在"不良事件"模块采集了不良事件的终止日期，就没必要在另一个地方再采集一次。

数据统计服务团队在审查CRF的时候，会重点关注几个方面。首先是数据采集的完整性——有没有遗漏研究方案要求采集的关键信息？其次是数据采集的规范性——问题的设置是否清晰明确，会不会导致理解歧义？最后是数据采集的效率——能不能通过优化问题顺序或者合并相似问题来减少工作量？

举个实际的例子。曾经有一个项目，原始CRF里关于实验室检查结果的设计非常分散。每个实验室指标都单独设了一个问题，导致整个CRF有上百个实验室检查相关的字段。后来数据统计服务团队建议改成按"化验类别"分组，每类化验放在一个模块里，这样既方便了数据录入，后续做SDTM转换的时候效率也高了很多。

第三步：数据库锁库和数据清洗

在病例报告表数据采集完成后，就进入了数据清洗阶段。这个阶段的主要工作就是检查数据的质量，发现并修正数据中的问题。

数据清洗的工作量通常很大。一个中等规模的III期临床试验，可能会有几十万条数据记录需要逐一核查。这里说的核查不是人工一条条看，而是通过编写SAS程序来自动检查。

常见的数据核查规则包括：逻辑一致性检查（比如受试者的年龄和入组日期是否矛盾）、范围检查（比如血压值是否在合理范围内）、完整性检查（比如关键变量的缺失情况）、时间逻辑检查（比如不良事件的发生时间是否在知情同意之后）。

在这个过程中，数据统计服务团队会发现很多数据问题。这些问题需要及时反馈给数据管理团队，由他们向临床site发起质疑（query），等待研究者的回复后再进行数据修正。

这个过程可能会反复进行好几轮，直到数据库中的数据达到预设的质量标准为止。当所有数据问题都得到妥善处理后，就会进行数据库锁库（database lock）。锁库之后，原始数据原则上就不能再修改了，这也标志着数据采集阶段的正式结束。

第四步：SDTM映射和转换

数据库锁库之后，真正"做CDISC"的工作才刚刚开始。所谓SDTM转换，就是把从临床 site 采集回来的原始数据，按照CDISC的标准格式整理成SDTM数据集。

这个过程听起来简单，做起来却相当复杂。首先，你需要根据研究方案和CRF，设计一套完整的映射规则文档。这份文档要详细说明原始数据中的每一个字段会对应到SDTM的哪个变量，衍生变量是怎么计算的，遇到特殊情况是如何处理的。

以不良事件数据为例。原始数据中通常只记录不良事件的名称、发生时间、严重程度、是否采取措施等信息。按照SDTM标准，不良事件需要放在AE域（domain）里，每个变量都有明确的定义和取值规则。比如严重程度，SDTM里用的是Severity这个变量，需要按照轻度、中度、重度、危及生命、死亡这几个标准值来编码。

更重要的是，SDTM对变量的顺序、标签、格式都有严格要求。一个变量是字符型还是数值型，能取哪些值，缺失的时候怎么处理，这些都得按照标准来。

数据统计服务团队在完成映射规则设计后，会先用一小部分数据做测试验证。测试通过后，才会用全部数据来生成最终的SDTM数据集。这个过程中需要反复检查，确保转换后的数据既符合CDISC标准，又准确反映了原始数据的信息。

第五步：ADaM创建和统计分析

SDTM做好之后，下一步就是创建ADaM数据集。ADaM和SDTM的区别在于：SDTM是面向提交的"原始数据"，而ADaM是面向分析的"衍生数据"。

换句话说，ADaM是在SDTM基础上进行进一步加工处理后得到的数据集。常见的ADaM数据集包括ADSL（受试者级别分析数据集）、BDS（基础数据结构数据集）和OCCDS（发生次数和持续时间数据结构数据集）。

ADSL里面包含每个受试者的基本信息，比如人口统计学特征、试验分组、重要的日期信息等。这个数据集是所有分析的基础，每个受试者只有一条记录。

BDS则是用于分析的数据集结构。它通常是一条记录对应一个受试者在一个时间点的一个测量值。比如某个受试者在基线、访视1、访访2的血压值，在BDS里会是三条记录。这种结构非常适合做重复测量分析。

创建ADaM数据集的时候，需要特别注意可追溯性。意思是别人看了你的ADaM数据，应该能够清楚地知道每个数据点是从SDTM里的哪个数据计算来的。为此，ADaM标准要求在数据集中保留必要的来源变量和标识符。

ADaM数据集创建完成后，就可以进行正式的统计分析工作了。按照统计分析计划书的要求，使用SAS等统计软件进行数据汇总、假设检验、模型拟合等分析工作，生成相应的统计表格、列表和图表。

第六步：验证和质量控制

CDISC工作的一大特点就是特别强调质量控制。因为最终的数据是要提交给监管机构的，任何一个小的错误都可能导致申报被退回。

质量控制贯穿整个CDISC实施过程。在SDTM转换阶段，我们会进行多重验证。首先是程序验证——由独立的程序员重新编写一遍转换程序，对比两者的输出是否一致。其次是数据验证——检查转换后的数据是否符合CDISC标准，比如变量名是否正确、取值是否在允许范围内、记录数是否合理等。

还有一个很重要的验证叫做"可追溯性验证"。就是要确保ADaM数据能够追溯到SDTM，SDTM数据能够追溯到原始数据。这通常是通过编写追溯报告来完成的。报告中会列出关键分析变量是从哪些原始变量计算来的，计算逻辑是什么。

在康茂峰的数据统计服务流程中，我们会把验证工作作为强制要求，每个项目都必须有独立的QC人员参与，而不是由编程人员自己检查自己的代码。这个看起来有点"麻烦"的环节，实际上帮我们避免了很多潜在的问题。

做CDISC最常遇到的挑战

说了这么多步骤，你可能觉得做CDISC就是个按部就班的事。但实际工作中，情况往往要复杂得多。我聊聊几个最常见的挑战吧。

首先是复杂研究设计的处理。现在越来越多的临床试验采用复杂的设计，比如篮式试验、伞式试验、适应性设计等。这些研究的数据结构比传统的平行设计要复杂得多，如何用SDTM和ADaM来准确表达这些设计，是一件很考验功底的事。

其次是不同数据来源的整合。很多临床试验的数据不仅仅来自EDC系统，还可能来自实验室系统、影像系统、患者报告结局电子化系统等。这些不同来源的数据需要整合到统一的SDTM框架下，但各个系统的数据结构往往差异很大，如何设计合理的映射规则是个大问题。

还有就是标准版本更新的问题。CDISC标准本身也在不断更新，每年都会有新的版本发布。新版本可能会增加新的变量、修改某些定义或者删除过时的内容。项目是继续用老版本还是升级到新版本，需要综合考虑监管要求、项目进度和验证成本等因素。

最后就是人才培养的问题。做好CDISC工作，既需要深入理解CDISC标准，又要有扎实的统计功底和编程能力。这样的人才在整个行业里都是比较稀缺的。很多公司都面临人手不足、培训成本高的问题。

找专业服务商做CDISC，值得吗？

这个问题没有标准答案，要看具体情况。如果你们公司有足够的专业人才和项目经验，自己做当然没问题。但如果还是初创团队，或者项目经验有限，找专业服务商可能会更高效。

专业服务商的优势主要体现在几个方面。一是经验积累。做过很多项目后，会形成一套成熟的流程和模板，遇到问题也知道该怎么处理。二是人才储备。有专门的团队负责CDISC工作，不像内部团队可能还要兼顾其他任务。三是质量保障。有完善的质控体系，能更好地保证数据质量。

当然，选择服务商的时候也要擦亮眼睛。要看看他们有没有相关的项目经验，团队成员的资质如何，有没有建立完善的质量管理体系。最好能要几个参考客户问问情况，毕竟耳听为虚，眼见为实。

我们康茂峰在这个领域已经深耕多年，积累了大量从I期到IV期临床试验的项目经验。从方案设计阶段开始，一直到最终的统计分析报告，我们都能提供全程的CDISC支持服务。有兴趣的朋友可以进一步了解。

写在最后

说白了，CDISC就是给临床数据"立规矩"的事。规矩定了，大家都有章可循，沟通成本降低了，效率自然就上去了。虽然前期可能要花不少精力在标准化工作上，但到了数据提交和审查阶段，这些投入都会显现出价值。

对于数据统计服务来说，做好CDISC既是基本功，也是核心竞争力。这个领域的技术和方法论还在不断发展，我们也需要持续学习、与时俱进。希望这篇文章能给你一些启发，如果还有具体的问题，欢迎继续交流。

新闻资讯News

数据统计服务如何做CDISC标准？

数据统计服务如何做CDISC标准？

先搞明白：CDISC到底是什么？

CDISC标准体系里都有什么？

数据统计服务做CDISC，大概分几步？

第一步：项目启动和规划

第二步：病例报告表设计和数据采集

第三步：数据库锁库和数据清洗

第四步：SDTM映射和转换

第五步：ADaM创建和统计分析

第六步：验证和质量控制

做CDISC最常遇到的挑战

找专业服务商做CDISC，值得吗？

写在最后

联系我们

告诉我们您的需求

在线填写需求，我们将尽快为您答疑解惑。