当前位置: 首页 > backend >正文

数据分析与数据挖掘

一、数据分析和数据挖掘的概念

从规范的概念上来说:

数据分析是指用适当的统计分析的方法对收集来的大量数据进行分析,提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。

数据挖掘是在大型数据存储库中,自动地发现有用的信息的过程。

大白话说:其实数据分析和数据挖掘都是从数据中提取有用信息的过程。只不过是他们两个的提取方法和侧重不相同。数据分析侧重于用统计学的方法从现有数据中分析出信息;数据挖掘侧重于利用机器学习技术从大量数据中挖掘出有用信息的过程。

二、数据分析和数据挖掘需要掌握的三方面要素

工具:R语言、Python语言、Excel、PPT、Hive、Spark、MySQL、Orcal等等

思维:“树”和“田”

理论:

三、探索性数据分析

(1)、集中趋势

平均值、中位数、众数

(2)、离散程度

表示离散程度的几个指标:极差、标准差、方差、变异系数

(3)、相关系数

相关系数的指标有:皮尔森相关系数、斯皮尔曼等级相关系数

(4)、可视化展示

可视化展示的原则就是利用合适的图表来清晰的表达出数据中的信息。

常见的一些数据图表:

(5)、总结

四、预测和分类

首先先说数据挖掘的流程就是:数据选取--->模型训练--->模型验证--->模型修正--->使用模型

预测和分类中的五个算法(有监督学习):线性回归、逻辑回归、决策树算法、支持向量机、朴素贝叶斯

五、分群和降维

        

http://www.xdnf.cn/news/18825.html

相关文章:

  • 企业如何构建全面的高防IP防护体系?
  • Teams Workflows 业务流程搭建与Linux自动化运维拓展应用全解析
  • 状态设计模式
  • 构建面向人工智能决策的世界模型引擎所需的基本知识体系
  • 如何在GitHub找到10k+个stars的仓库
  • podman启动mongdb的container因为权限问题导致changing ownership和读取storage.bson失败的解决方法
  • CMake构建学习笔记20-iconv库的构建
  • 算法概述篇
  • 游戏空间划分技术
  • 日语学习-日语知识点小记-构建基础-JLPT-N3阶段(20):文法+单词第7回2
  • 广告推荐模型1:逻辑回归(Logistic Regression,LR)
  • 如何拯救一家濒临破产的科技公司?
  • 技术总结:AArch64架构下Jenkins Agent(RPM容器编译节点)掉线问题分析与排查
  • KubeBlocks for Oracle 容器化之路
  • 【RAGFlow代码详解-30】构建系统和 CI/CD
  • 微服务-28.配置管理-共享配置
  • poi生成word固定表格列宽
  • TensorFlow 面试题及详细答案 120道(61-70)-- 高级特性与工具
  • css3背景线性渐变:linear-gradient
  • 【密集目标检测】停车场车辆(车位)识别数据集:12k+图像,yolo标注
  • 04 网络信息内容安全--入侵检测技术
  • 依托边缘计算方案,移动云全面化解算力、效率、安全平衡难题
  • from中烟科技翼支付 面试题2
  • 高频面试题:说一下线程池吧?(线程池原理,核心参数,创建方式,应用场景都要说到才能让面试官心服口服)
  • Pytorch深度学习(小土堆)
  • Java 企业应用单点登录(SSO)实现方案详解
  • 如何对springboot mapper 编写单元测试
  • Ansible 文件管理与 Jinja2 模板全解析:从模块应用到动态配置生成
  • 由倍讯科技研制的CCLinkIE转ModbusTCP网关,可达成与脉冲计数器的连接
  • JVM分层编译深度解析:完整机制与实践指南