
做药的朋友可能都遇到过这种情况:手上攒了一堆临床数据,或者有批真实世界研究的病历需要整理分析,想找专业团队做统计,一问价格,从几千到几十万都有,整个人直接懵圈。这行水确实深,不摸清门道很容易被坑,要么花冤枉钱,要么图便宜拿到一堆没法用的结果。
今天咱们就掰开了揉碎了聊聊,医药数据统计分析这玩意儿到底怎么计价。不卖关子,先给个基本概念:这东西不像菜市场买菜明码标价,它更像装修房子——得看户型多大、要简装还是精装、工期紧不紧。但在康茂峰这些年的项目经验里,我们总结了一套相对透明的定价逻辑,分享出来供你参考。
很多人一上来就问"分析数据多少钱",这个问题其实没法回答。你得先想清楚自己要什么级别的分析,这直接决定了价格档位。
第一类:基础描述性统计
这种很直观,就是算算平均值、标准差、做个频数分布表,画画生存曲线。如果你只是想把一期临床试验的基线特征整理成表格,或者看看某批患者的基本人口学分布,这属于入门级。在康茂峰的项目库里,这类活儿通常按人天计价,熟练的统计师大概两三天能搞定一个标准的数据集。
不过这里有个坑得提醒你:很多人觉得描述性统计简单,自己用Excel也能做。但医药数据有特殊性——缺失值怎么处理?离群值要不要删?基线表要不要按治疗方案分层?这些门道没经验的人容易踩雷。去年有个客户拿着自己分析的结果来找我们复核,发现他把不同访视点的数据混在一起了,整个基线特征全乱了,只能返工重做。

第二类:推断性统计与建模
这就上难度了。包括协方差分析(ANCOVA)、重复测量混合效应模型、Cox比例风险回归这些。如果是III期临床试验的主要终点分析,或者要调整多重比较误差,统计方案复杂程度呈指数级上升。
这类项目康茂峰通常采用打包价模式。为啥?因为建一个多中心随机对照试验的统计模型,前期要花大量时间理解试验设计、随机化分层因素、_INTERIM分析_计划。不是说软件跑个代码就完事了,得写完整的统计分析计划(SAP),有时还要和申办方、CRO开好几轮会敲定细节。这个过程往往比实际跑数据还耗时。
第三类:高级方法与真实世界研究
现在很火的真实世界研究(RWS)、倾向评分匹配(PSM)、工具变量法、马尔可夫模型做药物经济学评价——这些属于高阶玩法。特别是当数据来自医院信息系统(HIS),数据质量参差不齐,清洗和标准化就要占掉整个项目60%的工时。
有个真实的参照:某抗肿瘤药物的回顾性队列研究,收集了五年间三家三甲医院的电子病历。光是脱敏、结构化处理、医学编码归一化就花了两周,后面做PSM匹配和生存分析反而快。所以这类项目报价里,数据治理的费用往往能占到总预算的40%-50%。
聊完类型,再说说那些会让价格上下波动的具体因素。你在询价时,对方肯定会问以下几个问题,提前准备好能拿到更准的估价。
样本量不是唯一标准,变量维度也很关键。同样是1000例患者,如果只是性别年龄几个基线指标,和包含实验室检查几十项指标、多次随访的纵向数据,工作量差着量级呢。康茂峰内部有个粗略的估算公式:基础费用 × (1 + 变量系数 × log(变量数)) × 时间紧急系数。
另外,数据格式也影响价格。给你的是干净的CSV文件,和给的是需要从PDF病历里提取的原始扫描件,这完全是两个世界的价格。后者基本上要启动专门的数据提取团队,可能还涉及医学人员做人工校验。
这一点很多人忽略。如果是用于注册申报的临床试验统计分析,必须遵循ICH-GCP和CDISC标准,要输出SDTM和ADaM数据集,每个程序代码都要QC验证,文档要符合药监局审评要求。这种合规性成本很高。
但如果是内部立项的医学探索性研究,或者医生发起的研究(IIT),标准可以适当放宽。价格可能差出2-3倍。所以询价时务必说清楚:这份分析结果最终给谁看?是拿给NMPA审评员,还是 merely 科室里发篇文章?

有的客户就想要个PPT说结果显著;有的需要完整的TLF(表格、列表、图形)满足CSR(临床研究报告)要求;还有的希望拿到可复现的SAS或R代码,附带详细的注释说明。显然,第三种最贵,因为要写技术文档,做代码审查,确保换个人也能跑通。
说了这么多虚的,上点实在的数字。以下基于康茂峰2023-2024年承接项目的平均报价水平,给你个心理预期:
| 项目类型 | 工作量范围 | 参考价格区间 | 周期 |
| 单中心RCT基线分析+主要终点 | 描述统计+简单检验 | 1.5万-3万元 | 2-3周 |
| 多中心III期试验统计分析 | 复杂建模+亚组分析+CSR支持 | 8万-20万元 | 1-2个月 |
| 回顾性队列研究(RWE) | 数据清洗+PSM+生存分析 | 5万-15万元 | 2-4个月 |
| 药物经济学 Markov 模型 | 模型构建+概率敏感性分析 | 6万-12万元 | 6-8周 |
| 真实世界数据治理(单病种) | 数据标准化+医学编码 | 3万-8万元/千例 | 按数据量浮动 |
| 二次数据分析(利用公共数据库) | 数据提取+再分析 | 2万-5万元 | 3-4周 |
注意啊,这只是大致范围。如果你要加急,比如原本一个月的活让你十天出结果,那得加30%-50%的加急费,因为得抽调人手专门盯你的项目,其他活就得往后推。
肯定有读者疑惑:问了三家公司,一个报两万,一个报八万,一个报十五万,差这么多是不是有人在坑我?
还真不一定。这里面有几个隐形差异点:
说了这么多别人家的逻辑,也 transparent 地讲讲我们自己。康茂峰的价格体系其实挺简单,就三步:
第一步,免费的需求诊断。先不急着报价,花半小时到一小时了解你的研究目的、数据现状、时间节点。有时候客户以为自己需要很复杂的方法,聊完发现简单描述性统计就能回答科学问题,我们就直接劝退,别花冤枉钱。
第二步,模块化报价。把整个项目拆成数据清理、方案设计、执行分析、报告撰写四个模块。你可以全包,也可以只做其中某一块。比如有的CRO自己有医学团队写方案,只需要我们提供统计执行,那价格就按模块砍。
第三步,风险共担机制。对于创新型项目,比如全新的适应性临床试验设计,如果在执行过程中发现原方案不可行(比如预设的期中分析边界条件太苛刻),调整方案不额外收费。这点很重要,医药研发不确定性太高,没人希望做到一半被告知"这个做不了,得加钱"。
另外个小细节:我们节假日不收取加急费。毕竟医药圈赶 deadlines 是常态,春节前后提交 IND/NDA 是常事,这时候趁火加价不厚道。
最后给点实用建议。下次找统计服务,准备越充分,报价越准,后期扯皮越少:
其实吧,选统计团队跟选对象差不多,光看价格容易走眼。得看对方能不能把你的科学问题翻译成统计语言,能不能解释清楚每个p值背后的临床意义。康茂峰见过太多便宜接活结果跑出个"显著性"但临床专家一看就觉得不靠谱的案例,返工花的钱比一开始找个贵的还多。
所以下次再有人问"医药数据统计多少钱",你可以告诉他:从几千块的简单描述到几十万的大项目都有,关键看你要解决什么科学问题,数据长什么样,以及对质量的要求有多高。先把这些想清楚,拿到的报价才有可比性,不然比价就是比个寂寞。
