当前位置: 首页 > news >正文

中级统计师-统计学基础知识-第一章

统计学基础知识 第一章


第一节 统计学的含义及其应用

1.1 统计学的定义

  • 统计学:关于数据的科学,通过收集、整理、分析数据,得出结论以解决实际问题。
  • 核心流程:数据收集 → 数据整理 → 数据分析 → 结论推断。

1.2 基本概念

(一)总体
  • 定义:研究对象的全部个体或数据的集合。
  • 特征
    • 唯一确定但参数未知(如总体均值μ、标准差σ、比例π)。
    • 分类:有限总体(容量N)和无限总体。
(二)样本
  • 定义:从总体中抽取的一部分元素的集合。
  • 特征
    • 不唯一但统计量已知(如样本均值x̄、标准差s、比例p)。
    • 样本容量用n表示。
(三)统计方法
类型功能示例
描述统计数据收集、整理、展示与分析绘制频数表、计算均值/方差
推断统计用样本推断总体(参数估计、假设检验)估计全国平均收入、检验药物疗效

第二节 统计学发展简史

时期时间范围核心学派/贡献
古典统计学17世纪中叶-18世纪中叶- 国势学派:定性描述国家实力
- 政治算术学派:定量分析(威廉·配第的《政治算术》)
近代统计学18世纪末-19世纪末- 数理统计学派:概率论应用(拉普拉斯、高斯)
- 社会统计学派:社会现象研究
现代统计学20世纪初-至今- 推断统计学发展(哥塞特提出t分布、费雪的假设检验)
- 核心:从描述转向推断

第三节 变量与数据

3.1 变量

  • 定义:观察结果会变化的特征(如气温、职业、收入)。
  • 数据:变量的具体观察值。

3.2 数据类型

(一)非数值型数据
类型特点示例
分类数据无顺序差异(仅区分类别)性别(男/女)、血型
顺序数据有顺序但不可量化差异教育程度(小学<中学<大学)
(二)数值型数据
  • 特点:可计算绝对差(如温度差)或相对差(如收入比)。
  • 优势:计量精度高,适用统计分析(如回归分析)。
(三)其他数据分类
类型定义示例
观测数据自然状态下收集(无干预)人口普查数据、GDP统计
实验数据控制条件下获取(如改变变量观察结果)药物疗效测试、农作物品种试验
横截面数据同一时间点的多个对象数据2023年各省人均GDP
时间序列数据同一对象随时间变化的数据2000-2023年全国GDP
面板数据多个对象在不同时间点的数据2010-2020年各省GDP

第四节 数据的搜集

4.1 数据来源

类型核心要点示例
原始数据直接调查或实验获得人口普查数据、新药临床试验结果
次级数据他人整理的数据(公开出版、未发表、网络爬取)国家统计局报告、学术期刊数据

4.2 统计调查方式

(一)普查
  • 定义:一次性全面调查(如人口普查)。
  • 特点
    • 全面性、准确性高
    • 成本高、周期长(10年一次)
  • 适用场景:重大国情国力调查。
(二)抽样调查
  • 核心优势:经济高效,可推断总体。
  • 方法分类
    • 概率抽样(随机原则,可计算误差):
      方法操作示例
      简单随机抽样纯随机抽取(有放回/无放回)抽签、随机数表
      分层抽样按特征分组后等比例抽样按年龄分层后抽样
      整群抽样随机抽取群后调查群内全部个体随机选社区调查所有居民
      系统抽样等距抽样(如每50人抽1人)学生学号按间隔抽取
    • 非概率抽样(非随机,不可推断总体):
      方法特点示例
      方便抽样偶遇抽样,成本低但偏差大街头拦截调查
      判断抽样主观选择代表性样本专家选取典型企业
      雪球抽样通过推荐扩展样本(稀有群体)调查艾滋病患者
(三)其他调查方式
方式定义适用场景
统计报表定期上报(月报、年报)企业定期向政府提交经营数据
重点调查选取对总体影响大的单位调查钢铁产量选大型钢厂
典型调查选择代表性样本深度分析研究房价选北上广深

4.3 数据搜集方法

(一)询问法
方法特点适用场景
面访面对面交流,灵活性高消费者满意度调查
邮寄问卷标准化,回收率低全国社会心态调查
电话调查计算机辅助,效率高快速民意测验
座谈会小组讨论(6-10人),定性研究产品设计焦点小组
个别深入访谈一对一,挖掘深层动机奢侈品消费心理研究
(二)观察与实验法
方法特点示例
观察法无干扰记录自然行为超市顾客购物行为观察
实验法控制变量验证因果关系广告效果A/B测试

第五节 数据的误差

5.1 抽样误差

  • 定义:因样本随机性导致的样本与总体差异。
  • 特点
    • 不可避免但可计算(通过概率抽样)
    • 重复抽样误差 > 不重复抽样误差

5.2 非抽样误差

  • 定义:调查过程中人为或程序错误。
  • 类型及控制
    类型原因控制方法
    抽样框误差抽样框架不完整(遗漏目标群体)更新抽样框
    无回答误差问卷未回收提高调查员激励
    应答误差被调查者提供虚假信息匿名调查、问题设计清晰
    计量误差测量工具或方法不准确校准工具、标准化流程

经典例题解析

例题1:数据类型判断

  • 题目:产品质量等级(1级、2级、3级)属于什么数据类型?
    答案:顺序数据(可排序但不可计算差异)。

例题2:抽样方法识别

  • 题目:从某高校所有班级中随机抽取5个班,调查班内所有学生。此方法为?
    答案:整群抽样(先抽群,后全查)。

例题3:误差类型辨析

  • 题目:因问卷问题表述模糊导致答案偏差,属于哪种误差?
    答案:非抽样误差(计量误差)。
http://www.xdnf.cn/news/489079.html

相关文章:

  • C++ lambda表达式
  • 构建稳定的金字塔模式生态:从自然法则到系统工程
  • LVGL常见面试题
  • 腾讯云MCP数据智能处理:简化数据探索与分析的全流程指南
  • S32DS中定义的全局变量对应的路径查看${ProjDirPath}
  • ConcurrentSkipListMap的深入学习
  • 中国 MRO 的市场概况及发展趋势
  • LlamaIndex 第九篇 Indexing索引
  • C# RSA加密
  • No module named‘serial‘解决办法
  • 计算机视觉----感兴趣区域(ROI)、非极大值抑制
  • 日语简单记录
  • 物联网设备远程管理:基于代理IP的安全固件更新通道方案
  • 共有四个站进行码分多址CDMA通信。四个站的码片序列为......
  • 地磁传感器RM3100简单介绍
  • Socket echo server
  • APIfox参数化配置
  • 移动硬盘不显示容量?三步找回你的重要数据
  • BUFDS_GTE2,IBUFDS,BUFG缓冲的区别
  • 深度学习反向传播:从数学推导到实战解析
  • `ParameterizedType` 和 `TypeVariable` 的区别
  • C#实现访问远程硬盘(附源码)
  • 代码随想录 算法训练 Day3:链表1
  • X_T 转 STP 技术全解:从格式剖析到软件实操与迪威模型网在线转换指南
  • 数据标注的黄金标准:如何为机器学习构建可靠标签?
  • **练习案例2:点和圆的关系**设计一个圆形类(Circle),和一个点类(Point),计算点和圆的关系。
  • ML307R 的 USB Vendor ID (VID):0x2ECC ML307R 的 USB Product ID (PID):0x3012
  • 驱动芯片走线、过孔指导,大电流、散热过孔
  • Emacs 折腾日记(二十四)——帮助信息的一些优化
  • 【python实用小脚本-64】Python如何用图像比对解决办公效率难题?(附方案)