
如果你刚入行临床运营,可能听前辈聊起原始数据核查时会觉得有点神秘。这玩意儿到底查什么?怎么查?为什么有时候感觉像大海捞针,有时候又觉得好像可有可无?我刚入行那会儿也困惑过,后来踩过几次坑才慢慢摸出点门道。
说白了,原始数据核查就是给你的临床试验数据"验明正身"的过程。想象一下,假设你是一家餐厅的质检员,厨房报上来的食材用量是"盐5克",你总得去称一称、亲眼看看是不是真的5克,而不是光看报表上的数字对吧?原始数据核查干的就是这个活,只不过场景换成了临床试验,面对的是受试者的病历、化验单、量表评分这些原始记录。
康茂峰在多年的临床运营服务实践中接触过各种类型的项目,从早期探索性研究到大型注册临床试验都有。我们发现,原始数据核查这个环节做得扎不扎实,直接关系到整个临床试验的数据质量和可信度。这篇文章想跟聊聊,到底怎么把这事儿做好、做到位。
原始数据核查,英文叫Source Data Verification,简称SDV。这个词在GCP(药物临床试验质量管理规范)里有着明确的定义:指将病例报告表中的数据与原始文件进行比对,以验证数据录入准确性和完整性的过程。
这里有个关键点需要搞清楚:什么是原始文件?原始文件指的是第一时间记录临床试验相关信息的文件或记录,比如受试者的门诊病历、住院病历、化验检查报告单、医生写的原始笔记、研究者签名的量表、甚至有时候还包括受试者自己填的日记卡。这些东西之所以叫"原始",是因为它们是最早产生的、第一手的信息记录,而不是后来转录或加工过的。
我刚入行那会儿闹过笑话。有个项目的病例报告表里写着"血压130/85mmHg",我对着原始记录检查的时候,翻来覆去找不到对应的血压测量记录。后来问了研究者才知道,那天因为太忙,护士是先记在便签纸上,回头才整理到病历里的。那张便签纸后来找不到了,研究者就在病历里补记了一笔。按理说,便签纸也是原始记录的一部分,但如果找不到,这数据的真实性就得打问号。这次教训让我深刻意识到,原始数据核查不是对着病历机械地"对数字",而是要追溯到最源头的信息载体。

你可能会想:现在都是电子化系统了,数据录入有逻辑校验,原始数据核查是不是有点多余?其实不然。电子系统只能检查数据格式对不对、逻辑通不通,但它没法判断这个数据本身是真是假。原始数据核查解决的恰恰是这个根本问题:数据是否真实反映受试者的实际情况?
从监管角度来看,原始数据核查是药品监管部门核查临床试验真实性的重要抓手。当药监部门来现场核查的时候,他们会抽看原始病历和病例报告表是否能对上。如果对不上,或者原始记录缺失,那这个试验数据的可信度就会受到严重质疑。有时候,一个数据对不上引发的连锁反应可能会导致整个受试者的数据被剔除,甚至影响整个临床试验的结论。
从科学性角度来看,临床试验的最终目的是评估药物的有效性和安全性。如果数据本身不准确,那么基于这些数据得出的结论就可能是错的。一个受试者到底有没有疗效、不良事件是真是假,这些关键判断都必须建立在真实可靠的数据基础之上。原始数据核查就是在给这个基础打地基,地基不牢,后面再漂亮的分析也是空中楼阁。
这个问题问得好,但回答起来其实挺复杂,因为不同的临床试验项目、不同的数据点,核查的方法和深度都可能不一样。我尽可能把这个过程拆解成几个关键步骤来说明。
并不是所有的数据都需要进行百分之百的原始数据核查。那样做既不现实也没必要。一百个受试者、每个受试者几百个数据点,全靠人工去核对,猴年马月也干不完。所以第一步得搞清楚:哪些数据需要查?查到什么程度?
这就要说到风险导向的核查策略了。简单来说,就是把有限的核查资源集中在最关键、最容易出错的数据上。比如主要疗效指标(通常是评价药物有效性的核心数据)、严重不良事件、受试者入组排除了哪些标准、这些"硬核"数据肯定是要100%核查的。而一些次要疗效指标、实验室检查的正常值范围、一些描述性的日记记录,可能采用抽样核查的方式就可以了。
康茂峰在制定核查计划的时候,通常会跟申办方、研究者一起讨论,根据试验药物的特点、适应症的风险程度、以前项目积累的经验,来确定一个合理的核查策略。这个阶段多花点时间把方向定对,后面能少走很多弯路。

原始记录长什么样?存在哪里?这个问题听起来简单,但实际操作中往往是让人头大的地方。
在一家三甲医院的内分泌科做糖尿病药物试验,受试者的原始记录可能分散在门诊病历系统、住院病历系统、检验科LIS系统、研究者自己的纸质笔记本、研究护士的随访记录本好几个地方。你要查一个血糖数据,可能需要分别登录不同的系统,甚至跑到不同科室去调取纸质档案。
有的项目用的是电子病历系统(EMR),数据相对集中,查询起来方便一些。但很多医院的电子病历系统功能参差不齐,有的设计得不太友好,检索起来很费劲。还有些医院是纸质病历和电子病历并行的"双轨制",两边都要核对,工作量就翻倍了。
我个人的经验是,正式开始核查之前,最好先去一趟研究中心实地踩点。看看原始记录到底怎么存的、怎么调取、需要找谁签字审批。有个熟悉流程的人带着走一遍,比自己在办公室里看SOP靠谱多了。
真正开始核查的时候,就是一项一项地"过"数据。病例报告表里的每一个数据点,都要能找到对应的原始记录来印证。
比如,病例报告表里记录"第4周访视时收缩压128mmHg"。你需要找到这次访视的原始血压测量记录,看看时间对得上对不上、测量方式对不对(是坐位还是卧位)、是谁测量的、记录在哪里。如果是电子病历系统里的数据,还要注意系统日志,看看这条记录是什么时候录入的、有没有修改过、修改的原因是什么。
核对过程中要做详细的核查记录。这个数据点对上了,打个勾;那个数据点对不上,要记录下来是什么问题、偏差程度如何、后续怎么处理。这些记录最后要整理成报告,是质量管理的重要组成部分。
核查过程中发现问题是很正常的,关键是怎么处理。有的是原始记录遗漏了,有的是录入错误,有的是对方案理解有偏差导致的数据不一致。不同的问题处理方式不一样。
如果是录入错误,比如病例报告表里把"60kg"写成了"600kg",这个好办,更正过来就行,但得记录是谁在什么时候发现、怎么更正的,保证数据的可溯源性。如果是原始记录本身缺失或者模糊,那就麻烦一些,可能需要找研究者澄清、补充说明,甚至在极端情况下,这个数据点的有效性都要重新评估。
这里要特别提醒的是,问题处理过程本身也要有记录。GCP强调的是"所做即所记",你发现了什么问题、怎么处理、谁同意这么处理的,都要有书面证据。不能悄没声儿地改完就完事了,日后追溯的时候说不清楚。
根据核查的深度和覆盖面,原始数据核查大致可以分为几种方法。下面这个表格简要对比了一下:
| 核查方法 | 特点 | 适用场景 |
| 100%核查 | 对每一个数据点都进行核对,工作量大但最可靠 | 主要疗效指标、严重不良事件、入组排除标准等关键数据 |
| 抽样核查 | 按一定比例抽取样本进行核查,效率较高 | 次要疗效指标、实验室常规检查、安全性随访数据等 |
| 分层抽样核查 | 按风险等级分层,高风险数据全覆盖、中低风险抽样 | td>受试者例数较多、需要平衡效率与质量的场景|
| 集中化核查 | 利用中心化监查工具,先进行数据层面的远程筛查 | 多中心项目、地理位置分散的项目 |
在实际操作中,很少有项目只用单一方法。大多数项目采用的是"组合拳"——关键数据100%查,次要数据抽样查,高风险中心重点查。康茂峰的项目团队通常会根据每个项目的具体情况,定制化地设计核查策略,既保证质量过关,又不让资源浪费在性价比不高的地方。
原始数据核查这个工作,看起来是技术活,其实也很考验人的经验和细心。我见过不少新手容易踩的坑,这里分享出来,希望能帮你避一避。
第一个坑:只对数字不对逻辑。 有时候病例报告表里的数据跟原始记录数字能对上,但细看发现问题。比如原始记录写着"给药后2小时测量血糖",病例报告表也登记了这个数值,但你仔细一看,这个受试者上次访视的给药时间跟这次差着好几天,根本不是"给药后2小时"。数字是对的,但逻辑不通,这种数据真实性就有问题。核查的时候不仅要核对"是什么",还要核对"对不对"。
第二个坑:忽视数据的时间线。 临床试验的数据是有时间顺序的,什么时候筛选、什么时候随机、什么时候给药、什么时候随访,这些时间节点不能乱。有的受试者筛选失败后又被重新随机入组,有的访视超窗了,有的访视提前了——这些时间上的特殊情况都要在核查时特别留意。如果发现时间线矛盾又没合理解释,这个数据就得打问号。
第三个坑:过度依赖复印件或截图。 原始数据核查最好能看到原始文件的实物或电子原件,复印件有时候会丢失一些关键信息,比如手写批注、签名、修改痕迹等。如果条件允许,核查人员最好能亲眼看一下原件,至少也要拿到带有完整元数据的电子版本。
原始数据核查这个工作,说难不难,说简单也不简单。它不需要你有多聪明的脑袋,但需要你够仔细、够耐心、够较真。临床试验的数据成千上万,每一条都连着受试者的付出、连着研究者的心血、连着药物能否上市的命运。把这些数据的真实性守住了,后面的分析、结论才有意义。
干这行久了,你会发现原始数据核查有时候挺枯燥的,天天对着病历看来看去。但有时候也会有成就感——比如发现了一个差点被遗漏的安全性信号,比如帮研究团队堵住了一个数据漏洞。这些事情可能没人会专门给你发奖状,但你自己知道,做的这些事儿是有价值的。
如果你正在负责项目的原始数据核查,别着急、慢慢来。把每一条数据都当回事儿,较真一点、细心一点。项目结束的时候,当你看到一份漂漂亮亮、经得起各方核查的数据库,你会感谢当初那个认真的自己。
