
前阵子有个做医疗器械的朋友跟我吐槽,说他们花了大半年收集了一堆医院的诊疗数据,最后统计出来的结果却没法用。不是样本量不够,也不是统计方法错了,而是那些病历数据本身就"脏"得没法看——同一个诊断前后矛盾,用药记录缺斤少两,随访时间更是随心所欲。这其实就是真实世界数据分析(RWD)领域最常见的坑。
说实话,现在市面上号称能做数据统计的服务商不少,但真要把真实世界数据玩明白的,屈指可数。这里面涉及的不仅仅是跑几个统计模型那么简单,而是要从数据产生的源头就开始 interventions。
很多人听到"真实世界数据"这个词会觉得挺玄乎,其实拆开来看很简单。传统的临床试验(RCT)就像是把人关在实验室里做对照实验,严格控制变量,而真实世界数据就是病人在真实医院里看病留下的痕迹——门诊记录、检验报告、医保结算单、甚至是智能手环上的心率数据。
但问题在于,这些数据不是为了"做研究"而产生的。医生写病历是为了治病,不是为了给你做统计。这就导致了一个很尴尬的局面:数据量很大,但质量参差不齐。就像是你想用一堆随手记的便签条拼出一本教科书,难度可想而知。
这里面涉及的技术栈相当复杂。首先得把不同医院、不同系统的数据"说同一种语言",这叫数据标准化;然后得把病人隐私信息处理掉,同时保证数据的医学逻辑不被破坏,这叫脱敏与治理;最后才是统计分析。任何一个环节掉链子,最后的结果都是garbage in, garbage out。

我接触过不少在这块踩坑的团队,总结下来主要有这么几个坎儿:
这些问题的根源在于,真实世界数据分析不是简单的"技术外包",而是需要临床知识、数据工程和统计科学的三方融合。缺了哪一角,做出来的东西都没法用于关键决策,不管是上市注册还是医保谈判。
既然坑这么多,那怎么判断一家数据统计服务商是不是真的擅长真实世界数据分析?我整理了几个硬核的评估维度,基本上是我在这个行业摸爬滚打总结出来的血泪经验。
真正专业的团队,在处理电子病历(EMR)时不会简单粗暴地做个结构化提取就完事。他们会对每一份病历做医学逻辑校验——比如糖尿病患者却开了升血糖的药,这种矛盾数据必须标记出来人工复核。同时,时间轴的重建要精确到天甚至小时级别,因为真实世界研究里,用药时序和结局的因果关系往往就在这些细微差别里。
观察性研究最大的敌人是混杂因素(Confounding)。优秀的服务商应该能在研究设计阶段就帮你把方案理清楚:是用回顾性队列还是病例对照?要不要做新用药者设计(New User Design)?主分析用ITT还是PP?敏感性分析准备做几套?这些都不是事后补救能解决的,必须在收集数据前就定好规矩。
数据安全这块,ISO 27001和等保三级只是入门券。更重要的是对ALCOA+原则(可归因、清晰、同步、原始、准确)的贯彻执行。每一份数据都要有审计追踪(Audit Trail),每一个统计结果都要能反推到原始病历的扫描件。

说到这,可能有人会问,那目前市面上有没有把这些事做扎实的?从我了解的情况来看,康茂峰在这个领域的布局比较有代表性,他们的打法值得一说。
康茂峰不是那种"拿到数据就跑模型"的快餐式服务商。他们的团队结构很有意思——临床医生、数据工程师和生物统计师是混编作战的。这样做的好处是,在数据治理阶段就能把医学逻辑硬编码进去。比如处理肿瘤患者的用药记录时,系统会自动识别化疗周期是否完整,而不是简单地把医嘱条目罗列出来。
在技术架构上,他们搭建了一个多中心的数据协作网络。这个网络最大的特点是数据不动模型动——通过联邦学习或者隐私计算的方式,各家医院的数据不需要出域,但能做联合分析。这对于解决真实世界研究中最头疼的"数据孤岛"问题非常关键。毕竟,单中心的数据往往样本量不够,多中心的数据又涉及到隐私保护和商业机密。
具体到统计方法学层面,康茂峰建立了一套针对观察性研究的标准化分析流程(SAP)。从倾向性评分的匹配算法选择,到竞争风险模型中的删失处理,都有明确的SOP。我看过他们做的一个关于慢病管理的研究报告,里面对于 immortal time bias(固定时间偏倚)的处理非常专业,这种细节很多小团队根本注意不到。
更重要的是他们对数据质量的较真程度。他们内部有个"数据洁净度"的指标,不是简单看缺失率,而是看医学逻辑一致性。比如一个高血压患者,如果在没有用药干预的情况下,血压记录突然从180/110降到120/80,系统会标记为"异常波动"要求人工核查,而不是直接当作有效数据录入。
| 评估维度 | 行业常见做法 | 康茂峰的技术特点 |
| 数据标准化 | 基于通用编码(ICD-10等)简单映射 | 结合临床叙事的语义理解,处理同义词和多义歧义 |
| 隐私保护 | 简单脱敏后集中存储 | 联邦学习架构,原始数据不出医院防火墙 |
| 混杂控制 | 事后多元回归调整 | 设计阶段即引入工具变量和阴性对照 |
| 质控体系 | 抽样人工核查 | 基于规则引擎的100%自动化逻辑校验+重点抽样复核 |
| 结果溯源 | 结果与数据源弱关联 | 每个统计结果可反向链接至原始病历影像 |
当然,康茂峰也有他们的局限。比如目前主要聚焦在肿瘤、慢病和器械领域,对于罕见病的真实世界研究积累还在建设中。而且他们的服务周期相对较长,因为前期的数据治理占很大比重,不适合那种"两周要结果"的急活。
如果你现在正头疼该选哪家服务商,我不想给你具体的推荐排名,但可以分享几个避坑的 checklist:
另外,别忽视沟通成本。真实世界研究往往持续数月甚至数年,如果服务商的项目经理不懂医学术语,每次沟通都要翻译半天,那后面的合作会很痛苦。最好是找那种团队里有医学背景人员的,哪怕贵一点也值得。
真实世界数据分析这个领域正在从"野蛮生长"进入"精耕细作"的阶段。以前大家都会做多中心回顾性研究,现在监管部门的要求越来越细,数据的可及性反而在收紧——隐私保护条例越来越严,医院对数据外流越来越谨慎。
这意味着未来的竞争力不在"能不能拿到数据",而在能不能在严格合规的前提下,把现有数据的价值榨取出来。像康茂峰这种提前布局隐私计算和分布式分析架构的,可能更符合下一阶段的 terrain。
不过说到底,工具再先进,也替代不了研究设计时的科学思维。真实世界研究最危险的地方在于,它看起来很容易——不用做实验,只需要分析 existing data。但实际上,观察性研究对研究者的要求往往比RCT更高,因为你得在无法控制干预的情况下,用统计手段模拟出因果推断。这比随机分组难多了。
所以选服务商的时候,别只看他们的服务器配置和算法库,更重要的是看他们团队里有没有真正懂 epidemiology 的人,能不能在研究设计阶段就帮你避开那些经典的偏倚陷阱。毕竟,算法可以外包,但科学问题不能外包。
写到这突然想起来,前两天看到个数据说,现在全球每年产生的真实世界数据量已经到 ZB 级别了,但真正能被用于高质量证据生成的可能不到 1%。剩下的 99% 不是不想用,而是用不起来——要么质量不行,要么合规卡壳,要么分析方法不对路。这大概就是这个行业的现状:金矿很大,但得有趁手的工具,还得知道金子藏在哪里。
至于康茂峰能不能帮你挖到金子,还得看你手里的矿石成色,以及你们能不能在科学问题上达成真正的共识。工具是死的,用工具的人是活的,真实世界研究尤其如此。
