当前位置: 首页 > news >正文

Python Day45 学习(日志Day13-14复习)

补充:关于“数据预处理”

数据预处理包含以下部分:

  1. 缺失值处理

    • 填补缺失值(如用均值、中位数、众数等填充)
    • 删除缺失值较多的样本或特征
  2. 异常值处理

    • 检测和剔除异常值
    • 或用合理值替换异常值
  3. 数据类型转换

    • 将字符串、日期等类型转换为合适的数值或时间类型
  4. 特征编码

    • 标签编码(Label Encoding)
    • 独热编码(One-Hot Encoding)
  5. 特征缩放

    • 归一化(Normalization)
    • 标准化(Standardization)
  6. 数据去重

    • 删除重复的样本
  7. 特征构造与选择

    • 新特征的生成
    • 选择对模型有用的特征

为什么要进行数据预处理?

  • 提高数据质量:原始数据通常存在缺失、异常、重复等问题,预处理可以提升数据的准确性和可靠性。
  • 提升模型效果:很多机器学习算法对数据的分布、类型等有要求,预处理可以让模型更好地学习数据规律,提高预测准确率。
  • 加快模型训练速度:经过预处理的数据更规范,能让模型更快收敛,减少训练时间。
  • 避免错误和偏差:不规范的数据容易导致模型训练出错或结果偏差。

补充:关于“热力图”的阅读

 如何读这张热力图

  • 对角线:从左上到右下的对角线,相关系数都是1,因为每个特征和自己完全相关。
  • 非对角线格子:表示两个不同特征之间的相关性。例如,Annual Income 和 Monthly Debt 的相关系数是 0.58,说明它们正相关且相关性较强。
  • 颜色条(右侧):显示颜色和相关系数数值的对应关系。1为深红,-1为深蓝,0为白色或浅色。
  • 正相关:格子为红色,数值为正,说明两个特征同时增大或减小。
  • 负相关:格子为蓝色,数值为负,说明一个特征增大时另一个减小。

具体解读举例

  • Annual Income 和 Monthly Debt:相关系数为 0.58,格子为红色,说明年收入越高,月负债也越高,且关系较强。
  • Annual Income 和 Credit Score:相关系数为 -0.038,格子接近白色,说明几乎没有相关性。
  • Bankruptcies 和 Number of Credit Problems:相关系数为 0.73,格子为深红色,说明二者高度正相关。

手写笔记复习

今日复习到这里,明日复习"子图的绘制”,并用“心脏病数据集”对数据预处理部分进行学习情况检测,继续查漏补缺。比训练营的正常学习进度落后了很多,但没办法,学得卡住了。既然卡住了就说明前面的内容自己还是没有彻底掌握,那就重头再来,待前面彻底掌握再进行更深入内容的学习。一切以“掌握”为主,继续加油吧!!!@浙大疏锦行

http://www.xdnf.cn/news/940393.html

相关文章:

  • JLINK脚本初始化外部SDRAM STM32H7
  • 基于51单片机的红外防盗及万年历仿真
  • 2025-04-23-基于上下位机结构的系统实例分析
  • 基于n8n指定网页自动抓取解析入库工作流实战
  • 开源一个心流舱付费空间番茄风水钟
  • 车载诊断架构 --- 整车诊断数据管理策略
  • LR修图软件|Lightroom 2025网盘下载与安装教程指南
  • C++_核心编程_菱形继承
  • gem5-gpu教程 在gem5-gpu上运行多个应用程序
  • java复习 05
  • 聊聊集群间数据复制和持久化机制
  • Auto Think,快手开源的自动思考大模型
  • 从一次日期格式踩坑经历,谈谈接口设计中的“约定大于配置“
  • python打卡day48@浙大疏锦行
  • The Quantization Model of Neural Scaling
  • 【学习笔记】深入理解Java虚拟机学习笔记——第4章 虚拟机性能监控,故障处理工具
  • 一张图 介绍什么是字节流
  • 【证书】2025公益课,人工智能训练师-高级,知识点与题库(橙点同学)
  • java 乐观锁的实现和注意细节
  • 【GPT模型训练】第二课:张量与秩:从数学本质到深度学习的基础概念解析
  • 从认识AI开始-----变分自编码器:从AE到VAE
  • webgl
  • cpp自学 day2(—>运算符)
  • 常见 DOM 事件全解析
  • DAY 48 随机函数与广播机制
  • 模拟 - #介绍 #题解
  • 使用智能表格做需求管理
  • 【本地AI大模型部署+可视化界面图文教程】Ollama+Qwen3
  • 从C到C++语法过度1
  • Ajax入门