当前位置: 首页 > news >正文

2.1.3

# Load the data

file_path = 'finance数据集.csv'
data = pd.__________(file_path)

---

data = pd.read_csv(file_path)

# 识别数值列用于箱线图

numeric_cols = data.select_dtypes(include=['float64', 'int64']).__________

---

numeric_cols = data.select_dtypes(include=['float64', 'int64']).columns

代码解释:

select_dtypes筛选数据类型

箱线图,查看数据分布是否有异常值

数值列,columns(键盘打出col后点击“ Tab”按键)

# 使用IQR处理异常值

Q1 = data[numeric_cols].__________(0.25)

Q3 = data[numeric_cols].quantile(0.75)

---

Q1 = data[numeric_cols].quantile(0.25)

代码解释:类似于一个箱子,

# 检查重复值

duplicates = data_cleaned.duplicated()

num_duplicates = duplicates.sum()

scaler = MinMaxScaler()

data_cleaned[numeric_cols] = scaler.__________(data_cleaned[numeric_cols])

---

data_cleaned[numeric_cols] = scaler.fit_transform(data_cleaned[numeric_cols])

代码解释:

# 将SeriousDlqin2yrs设为目标变量
target_variable = '__________'

---

target_variable = 'SeriousDlqin2yrs'

# 定义特征和目标

X = data_cleaned.drop(columns=[__________])
y = data_cleaned[__________]

---

X = data_cleaned.drop(columns=[target_variable])
y = data_cleaned[target_variable]

代码解释:target_variable 通常指的是目标变量(也称为因变量、标签或响应变量)

# 划分数据

X_train, X_test, y_train, y_test = __________(X, y, test_size=0.2, random_state=42)

---
X_train, X_test, y_train, y_test =train_test_split(X, y, test_size=0.2, random_state=42)

代码解释:划分数据集train_test_split

# 保存清洗后的数据到CSV

cleaned_file_path = '2.1.3_cleaned_data.csv'
data_cleaned.to_csv(cleaned_file_path, index=False)

http://www.xdnf.cn/news/495145.html

相关文章:

  • 【Linux网络】NAT和代理服务
  • AtCoder AT_abc406_c [ABC406C] ~
  • MySQL相关
  • 数据结构【AVL树】
  • vue2 切换主题色以及单页面好使方法
  • 自己手写tomcat项目
  • Redis INCR 命令详解
  • 学习笔记:黑马程序员JavaWeb开发教程(2025.4.6)
  • C++学习:六个月从基础到就业——C++11/14:列表初始化
  • Java 类和对象
  • 从紫光集团看基本财务分析
  • 构建集成差异化灵巧手和先进机器人控制技术的自动化系统
  • 每日算法刷题Day9 5.17:leetcode定长滑动窗口3道题,用时1h
  • 5000 字总结CSS 中的过渡、动画和变换详解
  • 每日Prompt:生成自拍照
  • php fiber 应用
  • 【AI生成PPT】使用ChatGPT+Overleaf自动生成学术论文PPT演示文稿
  • NetApp高级磁盘分区(ADP)和常用维护命令介绍
  • Spring Security 集成指南:避免 CORS 跨域问题
  • 精益数据分析(63/126):移情阶段的深度潜入——从用户生活到产品渗透的全链路解析
  • 什么是私有IP地址?如何判断是不是私有ip地址
  • 无需配置光猫,使用网管交换机配合路由器的IPTV功能实现单线复用
  • 前端二进制数据指南:从 ArrayBuffer 到高级流处理
  • Spring AI 本地直接运行 Onnx Embedding 模型,结合 Milvus 实现语义向量的存储和检索
  • 【Linux 学习计划】-- yum
  • 【JavaWeb】MySQL
  • 数据结构day3
  • Flink 数据传输机制
  • 仅需三张照片即可生成沉浸式3D购物体验?谷歌电商3D方案全解析
  • 迁移学习:解锁AI高效学习与泛化能力的密钥