x ˉ = ∑ x i n \bar{x} = \frac{\sum x_i}{n} xˉ=n∑xi
易受极端值影响
加权算术平均数
x ˉ = ∑ x i f i ∑ f i \bar{x} = \frac{\sum x_i f_i}{\sum f_i} xˉ=∑fi∑xifi
适用于分组数据
几何平均数
G = x 1 ⋅ x 2 ⋅ ⋯ ⋅ x n n G = \sqrt[n]{x_1 \cdot x_2 \cdot \cdots \cdot x_n} G=nx1⋅x2⋅⋯⋅xn
用于比率或增长率数据
(二)中位数
定义:排序后处于中间位置的数值
计算:
奇数序列:第 n + 1 2 \frac{n+1}{2} 2n+1个值
偶数序列:第 n 2 \frac{n}{2} 2n和 n 2 + 1 \frac{n}{2}+1 2n+1个值的平均
特点:不受极端值影响,适用于顺序和数值型数据
1.2 数据离散程度的测度
指标
公式
特点
极差( R R R)
R = max ( x i ) − min ( x i ) R = \max(x_i) - \min(x_i) R=max(xi)−min(xi)
简单但受极端值影响
四分位距( Q d Q_d Qd)
Q d = Q 3 − Q 1 Q_d = Q_3 - Q_1 Qd=Q3−Q1
反映中间50%数据离散程度
方差( σ 2 \sigma^2 σ2)
σ 2 = ∑ ( x i − μ ) 2 N \sigma^2 = \frac{\sum (x_i - \mu)^2}{N} σ2=N∑(xi−μ)2
总体方差(分母 N N N)
样本方差( s 2 s^2 s2)
s 2 = ∑ ( x i − x ˉ ) 2 n − 1 s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} s2=n−1∑(xi−xˉ)2
无偏估计(分母 n − 1 n-1 n−1)
离散系数( V s V_s Vs)
V s = s x ˉ V_s = \frac{s}{\bar{x}} Vs=xˉs
消除量纲影响,用于跨数据集比较
1.3 数据分布形状的度量
(一)偏态系数( S K SK SK)
定义:测度数据分布不对称性
判断:
S K > 0 SK > 0 SK>0:右偏(均值 > 中位数 > 众数)
S K < 0 SK < 0 SK<0:左偏(众数 > 中位数 > 均值)
第二节 用表格描述数据
2.1 频数分布表
数值型数据分组公式
组距 = 全距 组数 , 全距 = max ( x i ) − min ( x i ) \text{组距} = \frac{\text{全距}}{\text{组数}}, \quad \text{全距} = \max(x_i) - \min(x_i) 组距=组数全距,全距=max(xi)−min(xi)