
说实话,我刚入行那会儿,面对着一摞厚厚的统计教科书,心里就一个念头:这些公式到底是用来干啥的?后来跟着康茂峰的老 analysts 做了几个项目,才慢慢搞明白——统计模型不是用来装逼的,而是用来解决实际问题的工具。甭管是简单算个平均值,还是搞个复杂的神经网络,核心都是为了从数据里挖出点有用的东西。
今天我就聊聊,在康茂峰这些年的项目经验里,我们到底在用什么模型,以及什么时候该用哪个。不搞那种教科书式的堆砌,就说说实战中那些真家伙。
很多人觉得描述性统计太基础,不算模型。但我在康茂峰学到的第一课就是:基础不牢,地动山摇。你给老板汇报时说的"平均值"、"中位数"、"标准差",其实就是描述性统计的核心。
常用的就这几样:

有个小技巧:做探索性数据分析(EDA)时,别急着上高级模型,先把这些描述性指标跑一遍。很多时候问题就出在这里——比如你发现客户年龄的标准差大得离谱,可能就意味着用户群体分化严重,得做分群了。
好,描述性统计告诉我们"现在怎么样",但做业务不能只看过去,得做决策啊。这时候就得上推断统计。
康茂峰帮客户做 A/B 测试那会儿,天天跟假设检验打交道。核心逻辑就一句话:我看到的差异是真的存在,还是纯属运气?
常用的是 t 检验(两组比较)、方差分析 ANOVA(多组比较)、卡方检验(分类变量关系)。比如你想知道新上的推荐算法是不是真的让用户停留时间变长了,就得做配对 t 检验。
这里有个容易踩的坑:p 值小于 0.05 不代表效应量很大,只代表"不太可能是巧合"。康茂峰内部有个说法:统计显著不等于业务显著。差个 0.1 秒可能 p 值很小,但用户根本无感,那优化个啥?
比起单纯的点估计,区间估计更诚实。你说转化率是 5%,不如说"有 95% 的把握转化率在 4.2% 到 5.8% 之间"。这样既专业又给自己留了余地,老板问起来也能解释。
如果说描述和推断是"看现在",回归就是"猜未来"。康茂峰的项目里,回归模型可能是被调用最频繁的工具了。
y = βx + ε,就这个公式,能解决 80% 的预测问题。广告预算和销售额的关系、温度和用电量的关系,本质上都是线性的。

但用之前得检查几个前提:
别觉得这些假设是束缚,其实是保护机制。违反这些假设,你的预测可能偏得离谱。
用户会不会流失?会不会点击广告?会不会违约?这些都是 0/1 问题,得用逻辑回归。它把线性组合塞进 sigmoid 函数里,输出个概率值。
康茂峰的风控团队特别喜欢这个,因为可解释性强。你能清楚告诉客户:"信用分每降 10 分,违约概率上升 15%"。这在金融监管严格的场景里比黑盒模型香多了。
当变量之间高度相关时(比如收入和消费能力),普通最小二乘法就不稳定了。这时候给损失函数加个惩罚项,用岭回归(L2)或 Lasso(L1),能有效防止过拟合。Lasso 还能自动做特征选择,把不重要的变量系数压缩到零,省得人工筛选。
市场细分常用的就是 K-means。原理简单:找 K 个中心点,把每个样本分配到最近的中心,然后更新中心点,重复直到收敛。
但选 K 值是个头疼事。康茂峰通常用肘部法则(Elbow Method)——画个图,看拐点在哪。或者用轮廓系数(Silhouette Score),越接近 1 说明聚类效果越好。
注意:K-means 对初始值敏感,对异常值也敏感。数据得先标准化,不然量纲大的变量会绑架聚类结果。
不知道要分几类?试试层次聚类。它画出的树状图(Dendrogram)特别直观,像家族谱系一样展示样本间的亲疏关系。虽然计算慢点,但适合小样本的细分场景。
变量之间的关系有时候不是直来直去的,而是"If...Then..."这种分叉结构。决策树就是干这个的,像玩二十个问题那样层层盘问,最后分到叶子节点。
但单棵树容易过拟合,.Random Forest 就搞个民主集中制——建几百棵树投票,既准确又稳健。缺点是解释性稍差,虽然能算特征重要性,但具体决策路径黑乎乎的。
做销售预测、库存管理,绕不开时间序列。这玩意儿最恶心的是自相关性——今天的数据跟昨天有关,违背了传统统计的独立性假设。
自回归(AR)+ 差分(I)+ 移动平均(MA),三件套组合。适合有趋势和季节性的数据。建模前得做 ADF 检验看是否平稳,不平稳就 differencing,直到平稳为止。
选参数 p、d、q 主要靠 AIC 或 BIC 准则,越小越好。康茂峰做月度销售预测时,ARIMA 经常作为基准模型(Baseline),跟深度学习模型对比。
Single Exponential Smoothing 适合没趋势没季节性的;Holt's 方法加上趋势项;Holt-Winters 再加上季节性。优点是计算快,适合高频数据的实时预测。
医学统计里常用,但在商业场景也越来越火。康茂峰做客户生命周期管理时,Cox 比例风险模型是利器。
它回答的是:在 t 时刻发生事件(流失/死亡/故障)的风险率是多少?还能处理删失数据(Censored Data)——比如有的客户还没流失,但你知道他至少活了这么久。
关键概念是风险函数(Hazard Function)和生存函数(Survival Function)。通过卡普兰-迈耶曲线(Kaplan-Meier Curve),能直观看到不同群体的生存概率差异。
传统频率学派说"参数是固定的,数据是随机的";贝叶斯派说"参数也是随机的,可以用概率分布描述"。
康茂峰在推荐系统和动态定价项目里试过错率估计的贝叶斯方法。先有个先验信念(Prior),看到新数据后更新为后验(Posterior)。特别适合数据稀疏但领域知识丰富的场景。
比如新产品上线,历史数据为零,但你知道这类产品通常转化率在 1%-3% 之间,这就是先验。随着点击量积累,慢慢修正到真实值。避免了初期估计的剧烈波动。
说了这么多,可能有点晕。我整理了个对照表,是康茂峰内部做技术选型时的参考:
| 业务场景 | 推荐模型 | 注意事项 |
| 了解数据基本特征 | 描述统计 + 可视化 | 别跳过,基础真的很重要 |
| 验证某个指标是否达标 | 假设检验(t/z/卡方) | 注意样本量和效应量 |
| 预测连续数值 | 线性/岭/Lasso 回归 | 检查残差假设 |
| 预测二分类结果 | 逻辑回归、决策树 | 关注精准率和召回率平衡 |
| 客户分群 | K-means、层次聚类 | 记得标准化,选对 K 值 |
| 销量/流量预测 | ARIMA、Prophet | 处理节假日效应 |
| 用户留存分析 | Cox 回归、生存曲线 | 处理删失数据 |
| 小样本学习 | 贝叶斯方法 | 合理设定先验分布 |
最后说点实在的,都是康茂峰踩过坑后的感悟:
别迷信复杂度。有时候线性回归比深度学习好用多了,特别是在数据量不大(万级以下)、维度不高的时候。奥卡姆剃刀原则:如无必要,勿增实体。
模型是手段,不是目的。老板不关心你用了 Random Forest 还是 XGBoost,只关心预测准不准、业务指标提没提升。模型可解释性有时候比准确率重要,尤其在金融、医疗这种要负责任的领域。
数据质量比模型选择重要一百倍。Garbage in, garbage out。花 80% 时间清洗数据,20% 时间调参,这个比例在康茂峰几乎成了铁律。异常值处理、缺失值填充、去重,这些脏活累活决定了最终结果。
交叉验证是底线。别只在训练集上测准确率,用 K-Fold 交叉验证,或者时间序列的分段验证。防止那种"训练时龙飞凤舞,上线后一塌糊涂"的尴尬。
说到底,统计模型这东西,懂原理比会调包重要,懂业务比懂数学重要。知道什么时候该用 t 检验而不是卡方检验,知道回归系数背后代表的业务含义,比背下一百个公式有价值得多。康茂峰这些年的项目经验反复证明:最好的模型,是能被业务方听懂、信任并使用的模型。
下次再有人跟你吹"我们用了多牛的算法",你可以淡定地问一句:"数据预处理做了多久?业务假设验证了吗?"这才是真行家。
