当前位置: 首页 > news >正文

中级统计师-统计学基础知识-第二章数据描述

统计学基础知识 第二章 数据描述


第一节 用统计量描述数据

1.1 数据集中趋势的测度

(一)平均数
类型公式特点
简单算术平均数 x ˉ = ∑ x i n \bar{x} = \frac{\sum x_i}{n} xˉ=nxi易受极端值影响
加权算术平均数 x ˉ = ∑ x i f i ∑ f i \bar{x} = \frac{\sum x_i f_i}{\sum f_i} xˉ=fixifi适用于分组数据
几何平均数 G = x 1 ⋅ x 2 ⋅ ⋯ ⋅ x n n G = \sqrt[n]{x_1 \cdot x_2 \cdot \cdots \cdot x_n} G=nx1x2xn 用于比率或增长率数据
(二)中位数
  • 定义:排序后处于中间位置的数值
  • 计算
    • 奇数序列:第 n + 1 2 \frac{n+1}{2} 2n+1个值
    • 偶数序列:第 n 2 \frac{n}{2} 2n n 2 + 1 \frac{n}{2}+1 2n+1个值的平均
  • 特点:不受极端值影响,适用于顺序和数值型数据

1.2 数据离散程度的测度

指标公式特点
极差( R R R R = max ⁡ ( x i ) − min ⁡ ( x i ) R = \max(x_i) - \min(x_i) R=max(xi)min(xi)简单但受极端值影响
四分位距( Q d Q_d Qd Q d = Q 3 − Q 1 Q_d = Q_3 - Q_1 Qd=Q3Q1反映中间50%数据离散程度
方差( σ 2 \sigma^2 σ2 σ 2 = ∑ ( x i − μ ) 2 N \sigma^2 = \frac{\sum (x_i - \mu)^2}{N} σ2=N(xiμ)2总体方差(分母 N N N
样本方差( s 2 s^2 s2 s 2 = ∑ ( x i − x ˉ ) 2 n − 1 s^2 = \frac{\sum (x_i - \bar{x})^2}{n-1} s2=n1(xixˉ)2无偏估计(分母 n − 1 n-1 n1
离散系数( V s V_s Vs V s = s x ˉ V_s = \frac{s}{\bar{x}} Vs=xˉs消除量纲影响,用于跨数据集比较

1.3 数据分布形状的度量

(一)偏态系数( S K SK SK
  • 定义:测度数据分布不对称性
  • 判断
    • S K > 0 SK > 0 SK>0:右偏(均值 > 中位数 > 众数)
    • S K < 0 SK < 0 SK<0:左偏(众数 > 中位数 > 均值)

第二节 用表格描述数据

2.1 频数分布表

数值型数据分组公式

组距 = 全距 组数 , 全距 = max ⁡ ( x i ) − min ⁡ ( x i ) \text{组距} = \frac{\text{全距}}{\text{组数}}, \quad \text{全距} = \max(x_i) - \min(x_i) 组距=组数全距,全距=max(xi)min(xi)

组中值计算

组中值 = 上限 + 下限 2 \text{组中值} = \frac{\text{上限} + \text{下限}}{2} 组中值=2上限+下限


第三节 用图形描述数据

3.1 直方图 vs 条形图

直方图条形图
矩形连续排列,面积表示频数条形分开排列,高度表示频数

3.2 帕累托图公式

  • 累积百分比计算
    累积百分比 = ∑ 前 k 组频数 ∑ 总频数 × 100 % \text{累积百分比} = \frac{\sum \text{前$k$组频数}}{\sum \text{总频数}} \times 100\% 累积百分比=总频数k组频数×100%

经典例题解析

例题1:标准差与离散系数

  • 题目:两组数据标准差相同但均值不同,如何比较离散程度?
    解析
    计算离散系数:
    V s = s x ˉ V_s = \frac{s}{\bar{x}} Vs=xˉs
    • V s 1 > V s 2 V_{s1} > V_{s2} Vs1>Vs2,则第一组离散程度更高。

例题2:箱线图分析

  • 题目:箱线图中 Q 1 = 4 Q_1=4 Q1=4 Q 3 = 10 Q_3=10 Q3=10,中位数 Q 2 = 7 Q_2=7 Q2=7,最小值和最大值分别为2和12。绘制箱线图如下:
    最小值 Q 1 Q 2 Q 3 最大值 \text{最小值} \quad \boxed{Q_1 \quad Q_2 \quad Q_3} \quad \text{最大值} 最小值Q1Q2Q3最大值
    结论:数据分布对称,无异常值。
http://www.xdnf.cn/news/497863.html

相关文章:

  • 产品经理入门(2)产品体验报告
  • 深入解析SpringMVC:从入门到精通
  • uniapp自动构建pages.json的vite插件
  • 多商户商城系统源码解析:开发直播电商APP的技术底层实战详解
  • python线程相关讲解
  • uni-app 开发HarmonyOS的鸿蒙影视项目分享:从实战案例到开源后台
  • 显卡、Cuda和pytorch兼容问题
  • Rust 数据结构:HashMap
  • PostGIS实现栅格数据入库-raster2pgsql
  • 端口443在git bash向github推送时的步骤
  • 轻量、优雅、高扩展的事件驱动框架——Hibiscus-Signal
  • 【C++ Qt】布局管理器
  • redis的pipline使用结合线程池优化实战
  • Java大师成长计划之第25天:Spring生态与微服务架构之容错与断路器模式
  • Qt 强大的窗口停靠浮动
  • Javascript:WebAPI
  • React Fiber 架构深度解析:时间切片与性能优化的核心引擎
  • ARM (Attention Refinement Module)
  • spring -MVC-02
  • DeepSeek赋能电商,智能客服机器人破解大型活动人力困境
  • 数组集合互转问题
  • Ubuntu 安装 squid
  • 服装零售逆势密码:从4月英国7%增长看季节性消费新模型
  • 中国30米年度土地覆盖数据集及其动态变化(1985-2022年)
  • 一个指令,让任意 AI 快速生成思维导图
  • Unity序列化字段、单例模式(Singleton Pattern)
  • 通俗版解释CPU、核心、进程、线程、协程的定义及关系
  • 动态规划-64.最小路径和-力扣(LetCode)
  • c#车检车构客户管理系统软件车辆年审短信提醒软件
  • 系统架构设计(九):分布式架构与微服务