【每天一个知识点】Dip 检验(Dip test)
Dip 检验(Dip test)是一种用于检验一维数据分布是否为单峰(unimodal)的非参数统计方法。该检验由 Hartigan 和 Hartigan 于 1985 年提出,通常用于探索性数据分析中,以判断数据是否仅具有一个峰值结构(即一个“主要集中区域”),或可能存在多个峰(多模态分布)。
一、基本思想
Dip 检验的核心思想是衡量一个样本分布与最接近它的单峰分布之间的“最大偏差”。这个偏差称为 Dip 值(Dip statistic)。
-
Dip 值越小,表示样本更接近于某个单峰分布;
-
Dip 值越大,表示样本更偏离单峰,可能存在多个峰值(即多模态);
-
通过计算 Dip 值对应的 p 值(Dip-p 值),可以判断该偏差在统计上是否显著。
二、检验步骤简述
-
输入数据:一维实数向量(如某特征值、投影值等);
-
计算样本的经验分布函数(EDF);
-
拟合最接近的单峰分布(即单峰包络);
-
计算样本 EDF 与该单峰分布之间的最大偏差(Dip 值);
-
通过重抽样(例如 Monte Carlo)获得 Dip 值的 p 值;
-
根据显著性水平(如 α=0.05)判断是否拒绝单峰性假设。
三、输出结果
-
Dip 值(float):样本分布与最接近单峰分布之间的最大偏差;
-
p 值(Dip-p value):表示该 Dip 值在单峰假设下出现的概率;
-
若 p 值 < α(如 0.05),则认为数据不服从单峰分布,可能为多峰;
-
若 p 值较大,则支持单峰分布假设。
-
四、常见应用场景
-
聚类分析中的验证工具(如 DipDECK 中用于判断两个聚类是否应合并);
-
异常检测:识别是否存在多个模式或集群;
-
密度估计评估:判断估计分布是否有多个模式;
-
降维或投影后的结构验证。
五、优点与局限
优点 | 局限 |
---|---|
非参数,无需假设分布类型 | 只能用于一维数据 |
对小样本和非正态分布较稳健 | 在样本不平衡或噪声多时可能不稳定 |
对分布形态敏感,适合模式识别 | 多维数据需投影后再使用 |