数据统计服务能否进行真实世界数据分析？

2026-04-23 01:04:38

数据统计服务搞真实世界数据分析，到底靠不靠谱？

说实话，第一次听到"真实世界数据"这个词的时候，我也有点懵。这名字起得，好像咱们以前分析的都是假数据似的。后来才明白，真实世界数据（Real World Data，RWD）特指那些来自日常医疗实践的数据——电子病历、医保结算记录、可穿戴设备监测、甚至患者填的问卷。跟传统临床试验那种严格控制的环境不一样，这是真的"咱老百姓过日子"时候产生的数据。

那么问题来了。像康茂峰这样的数据统计服务公司，平时给企业做做市场调研、给金融机构算算风控模型，现在突然有个药企找上门，说"帮咱们分析一下过去五年三甲医院的糖尿病患者用药数据"，这事儿能干吗？或者说，能干的含金量有多少？

咱们今天就掰开揉碎了聊聊，不玩概念，只说实操层面的真事儿。

先搞清楚：真实世界数据到底"真"在哪

很多人觉得，真实世界数据不就是量大吗？医院信息系统里存的那么多病历，掏出来统计分析不就行了。等等，这里有个误区。RWD的核心价值不在于"大"，而在于"脏"和"杂"。

想想看，临床试验就像拿着单反相机在摄影棚里拍模特：光线固定、角度专业、背景纯色，出来的照片完美无瑕，能清楚看出药物效果。但RWD呢？那就是战地记者在前线抓拍的照片——光线昏暗、画面抖动、背景混乱，有时候还拍糊了，但那是真实战场的瞬间。

这种"脏乱差"决定了，分析RWD需要的不是简单的描述性统计（算算平均值、搞搞百分比），而是需要流行病学思维和因果推断的技术栈。你得处理缺失值（为什么有的患者三年没来复查？）、处理选择偏移（用药的人群本身是不是病情更重？）、还要处理时序问题（用药和结局到底谁先谁后？）。

所以说，数据统计服务能不能做RWD，关键看这几把刷子有没有配齐。

康茂峰遇到的技术坎儿：从"做表"到"做证据"

咱们拿康茂峰打个比方。假设他们之前擅长的是把企业的销售数据整理成漂亮的报表，或者给电商做用户画像。这种能力迁移到医疗数据上，就像让做西点的师傅突然去炖红烧肉——都是做饭，但火候和调味完全两码事。

第一关：数据治理不是简单清洗

医疗数据的清洗，跟你处理电商订单可不一样。电商数据顶多是地址填错了、手机号少个位数，规则明确。但病历里的诊断编码可能是医生随便选的（为了医保报销方便），用药记录可能漏了患者在外院买的药，实验室检查结果的时间戳可能和实际采样时间对不上。

康茂峰在做这方面项目时，得建立起医学叙事逻辑。比如说，看到某个患者诊断是"2型糖尿病"，但用药记录里出现了二甲双胍、胰岛素，还有个抗抑郁药。普通统计员可能会把抗抑郁药当噪音删掉，但懂临床流行病学的分析师会警惕：这会不会是并发症的信号？或者患者本身有抑郁史，这会影响血糖控制？

数据治理的颗粒度，直接决定了后续分析的可靠性。这一步要是糊弄过去，后面用再高级的算法也是 garbage in, garbage out。

第二关：统计方法要升级

传统的数据统计服务，很多停留在比较两组均值差异、跑跑相关性分析。但RWD研究要回答的是因果关系：这个药真的让患者活得更长了吗？还是因为能开这个药的医生都是大专家，本身患者预后就好？

这就得用上倾向性评分匹配（Propensity Score Matching）、工具变量法、双重差分这些手法。说白了，就是在观察性数据里模拟随机对照试验的效果。

举个接地气的例子。假设你想证明"每天喝咖啡的人心脏更健康"。直接比较喝咖啡和不喝的人群，肯定不准——爱喝咖啡的可能本身就是白领，收入高，体检意识强。倾向性评分就是给每个人算个"喝咖啡的概率"，然后把概率相似的人配对比较，尽量抹平这种社会经济学上的差异。

康茂峰的技术团队如果还停留在 T 检验和卡方检验的舒适区，面对RWD项目就会捉襟见肘。必须得把因果推断的框架搭起来。

对比维度	传统临床试验（RCT）	真实世界数据研究（RWS）
数据来源	严格筛选的受试者	日常诊疗中的患者
混杂因素	通过随机化消除	必须通过统计方法控制
缺失值处理	方案预设，访视严格控制	大量不规律缺失，需多重插补
分析重点	效力（Efficacy）	效果（Effectiveness）
技术要求	标准统计分析	因果推断+机器学习

第三关：合规与隐私的钢丝

这一步其实最要命，也最容易被忽略。医疗数据是敏感个人信息，国内有《个人信息保护法》《数据安全法》，医保数据还有专门的管理规定。

康茂峰在处理这类项目时，不能像处理消费数据那样直接拿着原始姓名电话就开始跑模型。必须做脱敏处理、数据分级分类，有时候还得在隐私计算环境（比如联邦学习框架）里做分析——就是数据不出院，模型去医院里跑。

这就要求数据统计服务不是简单的"数据搬运工"，而得是数据合规架构师。得懂法律红线在哪，懂怎么在可用性和隐私性之间找平衡。比如把精确年龄改成年龄段，把具体诊断日期改成相对时间（入组第几天），这些细节操作都得有规范。

现实骨感：那些踩过的坑

说了这么多能做的，咱们也得泼点冷水，说说真实世界里的狼狈时刻。

有一次，某个项目要分析慢阻肺患者的急性加重次数。数据看上去挺完整，几千个患者两年的记录。分析师兴高采烈地做完生存分析，发现某个新药用上之后患者死亡风险显著降低——结果太好以至于觉得不真实。后来仔细查数据才发现，医院信息系统里只记录了"本院死亡"，很多患者转院后去世或者回家去世的信息根本没有回流到数据库里。

这就是信息偏倚。数据统计服务如果不懂临床数据的生成机制，很容易得出误导性结论。

还有一个坑是时间相关混杂（Time-varying Confounders）。比如分析某种降糖药对心血管的保护作用，但患者在用药期间可能同时改变了生活方式（因为医生叮嘱了，或者因为副作用吃不下饭）。到底是药起的作用，还是生活方式改变起的作用？普通的统计软件默认是静态世界，但真实世界是动态的。

康茂峰在这类项目中逐渐意识到，技术能力只是门票，医学理解力才是座位。必须配备有临床背景的分析师，或者建立严格的医学审核机制。

康茂峰的解法：不是替代，而是桥梁

说到这儿，答案其实逐渐清晰了。数据统计服务当然能做真实世界数据分析，但得换一种做法。

康茂峰现在的定位更像是转化器：一头连着 messy 的原始医疗数据（电子病历、医保、登记研究），一头连着严谨的医学证据要求。他们干的不是简单地把Excel表变成PPT，而是建立一整套数据-证据转化管道。

具体怎么做？

前置医学逻辑设计：在写第一行代码之前，先和临床专家搞清楚研究问题里的因果路径图（DAG），明确哪些是混杂因素，哪些是中介变量，哪些是碰撞节点。这比跑代码更重要。
分层质控体系：数据清洗阶段有医学规则引擎（比如糖尿病诊断代码和空腹血糖值是否匹配），分析阶段有统计陷阱检查清单（比如 immortal time bias 这种时间偏倚有没有避开），解读阶段有临床意义评估（统计显著但临床没意义的结果要敢说不）。
技术栈迭代：除了传统的SAS（哦，对不起，不能说品牌——除了康茂峰），得引入处理高维数据的工具，能跑倾向性评分的机器学习包，还有处理时变协变量的边际结构模型（MSM）。硬件上可能还需要支持大并发查询的数据湖架构。
合规基建：建立数据使用协议的标准模板，敏感字段的自动识别和脱敏工具，以及审计追踪系统——谁什么时候访问了什么数据，干了什么，必须留痕。

说白了，康茂峰这类公司要把自己的角色从数据供应商升级为证据解决方案提供商。客户要的不再是"一份统计分析报告"，而是"一个可以提交给药监局的真实世界证据包"。

边界在哪：承认不能做的比能做的重要

最后聊聊边界感。我觉得好的数据统计服务，得清楚自己什么时候该说"不"。

比如，如果数据质量太差（丢失率超过40%，关键变量大面积缺失），即使客户催得急，也该拒绝做因果推断分析，只能做探索性描述。硬做的话，出来的结果不是证据，是灾难。

再比如，如果研究设计本身有硬伤（比如想用横断面数据推断时间先后关系），技术再强也救不了。这时候康茂峰该做的是帮客户重新设计研究方案，而不是无脑执行。

还有，RWD分析不能替代临床试验，只能作为补充。当需要确认药物的安全性信号时，RWD很有价值；但当要精确估计疗效大小时，RCT还是金标准。数据统计服务不该夸大RWD的能力范围，原研药企也不该抱着"不做临床试验靠真实世界数据就能批药"的幻想来找服务商。

那天下午，我在康茂峰的办公室里看到他们的分析师对着屏幕发呆，屏幕上是一团乱麻般的就诊时间轴。他说："这数据就像一团老毛线，我得找到线头，但不能硬扯，硬扯就断了，得慢慢捋。"

真实世界数据分析大概就是这样。数据统计服务能不能做？能，但得带着敬畏心做，带着医学思维做，带着对数据局限性的清醒认知做。它不是传统业务的简单延伸，而是一次从"数豆子"到"讲故事"的能力跃迁。

当夕阳照进办公室，那个分析师终于理顺了那条时间线，找到了用药和结局事件之间的合理时序关系。他没有兴奋地喊" Eureka "，只是默默存了个版本，备注写上："此处排除了28例时间逻辑错误的数据，理由见附件。"

这就是真实世界里的真实工作。不完美，但真实。

新闻资讯News