大数据与数据分析【数据分析全栈攻略:爬虫+处理+可视化+报告】
- 第 100 篇 -
Date: 2025 - 05 - 25
Author: 郑龙浩/仟墨
大数据与数据分析
文章目录
- 大数据与数据分析
- 一 大数据是什么?
- 1 定义
- 2 大数据的来源
- 3 大数据4个方面的典型特征(4V)
- 4 大数据的应用领域
- 5 数据分析工具
- 6 数据是五种生产要素之一
- 二 数据分析 – 科学算命
- 1 定义
- 2 经常用到的数据
- ①负责处理数据的工具
- ②负责清洗数据的工具
- 3 数据分析过程
- 三 大数据分析类型和方法
- 1 四种类型
- 2 描述性数据分析 – 结果监控
- 3 诊断性数据分析 – 问题诊断
- 4 预测性数据分析 – 智能预测
- **5 规范性分析 – 决策支持**
- 6 数据分析四种方法
- 四 数据分析流程
- 1 明确分析目标
- 2 搜集所需数据
- 3 数据处理
- 4 数据分析和挖掘
- 5 数据可视化
- 6 撰写数据报告
- 五 数据分析工具的选择
- 1 数据分析工具有哪些:
- 2 Excel
- 3 MATLAB
- 4 Python
一 大数据是什么?
1 定义
研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
2 大数据的来源
-
交易数据
如:微信数据、支付宝数据、信用卡数据
-
人为数据
如:电子邮件、文档、图片、微博
-
机器传感器数据
如:智能家居、物联网
3 大数据4个方面的典型特征(4V)
-
大量(Voume)
全地球的数据总量非常庞大
-
多样(Varlety)
- 结构化数据
- 半结构化数据
- 非结构化数据
产生价值的数据往往是非结构化数据
-
高速(Velocity)
大数据高速的体现:
数据的增长速度和处理速度
-
价值(Value)
大数据的核心特征是**“价值”**
4 大数据的应用领域
- 金融
- 风险管理:欺诈检测、信用评分
- 智能投顾:量化交易、市场趋势预测
- 客户分析:精准营销、个性化推荐
- 医疗
- 疾病诊断:AI影像识别、电子病历分析
- 药物研发:临床试验优化、副作用预测
- 公共卫生:流行病监测、医疗资源优化
- 能源
- 智能电网:用电预测、动态定价
- 设备维护:故障预警、远程监控
- 可再生能源:风能/太阳能发电优化
- 零售
- 市场分析:竞品监测、价格调整
- 精准营销:用户画像、个性化推荐
- 供应链优化:库存管理、物流效率提升
- 城市治理(智慧城市)
- 交通管理:拥堵预测、智能红绿灯
- 公共安全:犯罪热点预测、应急响应
- 资源规划:人口分布分析、设施优化
- 教育
- 个性化学习:学习行为分析、自适应推荐
- 教学优化:课程评估、教师绩效分析
- 教育管理:招生预测、资源分配
- …
5 数据分析工具
Python,Excel,R…
6 数据是五种生产要素之一
-
2014年大数据被首次写入中国**《政府工作报告》**
-
2020年4月9日中共中央发布**《关于更加完善的要素试产化配置体制机制的意见》**
将数据、土地、劳动力、资本、技术并称为五种生产要素
二 数据分析 – 科学算命
1 定义
指用适当的统计分析方法对收集来的大量数据进行数据研究和大量总结,从而提取有效信息和形成结论的过程,它是数学和计算机科学相结合的产物。
2 经常用到的数据
①负责处理数据的工具
- Excel
- R
- Tableau
②负责清洗数据的工具
- SQL
- Python
3 数据分析过程
主要包括:
- 识别需求
- 收集数据
- 分析数据
- 过程改进
三 大数据分析类型和方法
1 四种类型
企业通过大数据分析创造价值分为四种类型:
-
描述性数据分析 – 结果监控
即 “发生了什么?”
-
诊断性数据分析 – 问题诊断
即 “为什么发生?”
-
预测性数据分析 – 智能预测
即 “未来会怎样?”
-
规范性数据分析 – 决策支持
即 “该怎么做?”
从描述性到规范性复杂性和工作量在逐步增加,机器化参与程度更高
2 描述性数据分析 – 结果监控
- 目标:回答“发生了什么?”
- 方法:数据聚合、可视化(如Tableau)
- 例子:
- 销售日报(月度销售额统计)
- 用户活跃度仪表盘
3 诊断性数据分析 – 问题诊断
- 目标:回答“发生了什么?”
- 方法:关联分析、根因分析(如SQL查询、漏斗分析)
- 例子:
- 某月销量下降的原因(渠道对比、用户流失分析)
- 网站跳出率高的关键页面定位
4 预测性数据分析 – 智能预测
- 目标:回答“未来会怎样?”
- 方法:机器学习(回归、分类、时序模型)
- 例子:
- 下季度销售额预测
- 客户流失概率预测
5 规范性分析 – 决策支持
借助新兴技术,处于数据分析领域的前沿,也是最高级的分析形式,因为它涵盖了所有的数据分析类型,然后输出模型规定要采取的措施
预测某一决策中涉及的多种情况结果,根据发现结果确定最佳的行动方案。
- 目标:回答“该怎么做?”
- 方法:优化算法、自动化决策(如强化学习、运筹学)
- 例子:
- 电商个性化推荐(提升转化率)
- 物流路径动态优化(降低成本)
6 数据分析四种方法
-
趋势
-
追踪数据的趋势变化,找到一些增长和下降的拐点,去分析对应的原因。
-
趋势分析一般而言,适用于产品的核心指标的长期跟踪
Eg:营业收入、活跃用户、网页点击
-
做出简单的数据趋势图并不是数据趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析
-
-
对比
-
无对比 不分析
-
对比就是成对的比较
横向对比(和他人比较),比如两家工资今年的毛利率
纵向对比(和自己比较),一家工资今年与去年的毛利率
-
-
细分
- 增加分析的深度
- 细分是指分维度,降低数据颗粒度来分析数据
- 分维度是只增加维度
- 降低粒度是指降低数据聚合程度,比如离职率不按照年份来统计,而按照周。
-
溯源
- 溯源:从原始数据中获得洞察
- 是指在对比、细分锁定到具体维度和颗粒度后依然没有结论,那就需要查找原始数据,洞察数据,就需要从原始数据中查找灵感。
四 数据分析流程
现在数据产生速度快,体量大,类型多,价值密度低,要想产生有价值的数据,大数据分析能力必定是未来职场人都应具备的条件
1 明确分析目标
- 确保数据分析过程有效进行的先决条件:明确数据分析目的,确定分析思路
- 为数据的手机、处理、分析提供清晰的指引方向
- 搭建框架
2 搜集所需数据
- 明确分析目的和分析框架后,需要数据进行支撑,数据的来源是哪里呢?
- 数据分为第一手数据和第二手数据
- 第一手数据:可直接获取的数据
- 第二手数据:加工处理后的数据
- 一般数据主要来源于
- 企业内部的数据库、公开出版物、互联网公开数据
- 如果需要获取某公司某年的年报,复制粘贴太过于麻烦,这时候就可以通过Python使用网络爬虫获取数据
3 数据处理
- 获取到想要的数据后,如果想为后续数据分析或挖掘所用,必须经过数据处理
- 基本目的是:从大量的、杂乱无章且那一理解的数据中获得有效且有价值的数据
- 数据处理主要包括:
- 数据清晰
- 数据集成
- 数据变换
- 数据规约
- 优秀的大数据分析师会用 70 ~ 90% 的时间来处理他们的数据。
4 数据分析和挖掘
-
数据分析是指用适当的分析方法及其工具,对处理过的数据进行分析,企业内部的数据库、公开出版物、互联网公开数据的过程
-
数据挖掘是一种高级的数据分析方法,从大量数据中挖掘有用信息,根绝用户特定要求,找出所需信息
-
数据挖掘侧重解决四类数据分析问题
- 分类
- 聚类
- 关联
- 预测
重点在寻找模式和规律,与数据分析和数据挖掘的本质是类似的
5 数据可视化
- 数据可视化是以简单以及直观的图像方式传达出数据包含的信息,增强数据的易读性
- 数据分析得到结论后,用合适的图形表达分析结果
- 折线图 – 表示趋势变化
- 饼状图 – 表示比例
- 散点图 – 表示各变量之间的相关性等
- 数据可视化是将数据结果呈现给数据使用部门的最佳方式
6 撰写数据报告
需要将数据分析得出的内容汇总成数据分析报告,数据报告主要包含下面的内容:
-
报告背景
主要描述分析的业务现状和要解决的问题
-
数据基本状况
主要体现教据来源及可靠性、数据维度概览、数据完整性等
-
可视化图标
每个数据指标和数据结论的可视化展示
-
决策建议
提供问题可行的解决方案
五 数据分析工具的选择
在企业中越来越多的重复性和低价值工作被机器人取代,数据分析已经成为每个岗位的重要内容,因此选择合适的数据分析工具非常重要!!!!!!
1 数据分析工具有哪些:
Excel、MATLAB、Python、R语言
2 Excel
-
可以用于:数据处理、统计分析
-
广泛用于管理、统计、财经等领域
-
局限性:
复用性差、功能单一、操作繁琐
3 MATLAB
- 是专为科学计算、数据统计开发的分析工具,上手较难,上课学生学习起来比较吃力
4 Python
从海量数据中获取有效数据,如果复制粘贴并且在Excel中进行数据分析处理,处理繁琐且效率低下,那么如何在海量的数据中获得有效的数据呢?
这时候Python就有很大的作用了,把它用到工作中可以用于 获取数据、分析数据