当前位置: 首页 > ai >正文

【python】get_dummies()用法

目录

1. 基本作用

 2. 语法

常用参数:

 3. 示例讲解

(1)对 Series 使用

(2)对 DataFrame 中的列使用

(3)加前缀

(4)避免虚拟变量陷阱(drop_first=True)


1. 基本作用

pandas.get_dummies() 用于将 分类变量(categorical variable) 转换为 哑变量/指示变量(Dummy Variables),也叫 独热编码(One-Hot Encoding)

👉 通俗点说:把字符串或类别列拆分成若干个二进制列(0 或 1),机器学习更容易处理。


 2. 语法

pd.get_dummies(data, prefix=None, prefix_sep="_", dummy_na=False, columns=None, drop_first=False)

常用参数:

  • data:要转换的数据(Series 或 DataFrame)

  • prefix:新生成列的前缀

  • prefix_sep:前缀与值之间的分隔符(默认 _

  • dummy_na:是否为缺失值生成一列(默认 False)

  • columns:指定要转换的列(DataFrame 时用)

  • drop_first:是否删除第一个类别(避免多重共线性,回归时常用)


 3. 示例讲解

(1)对 Series 使用

import pandas as pds = pd.Series(["red", "green", "blue", "red"])
dummies = pd.get_dummies(s)
print(dummies)

👉 输出:

   blue  green  red
0     0      0    1
1     0      1    0
2     1      0    0
3     0      0    1

(2)对 DataFrame 中的列使用

df = pd.DataFrame({"id": [1, 2, 3, 4],"color": ["red", "green", "blue", "red"],"size": ["S", "M", "L", "M"]
})# 对 color 列进行独热编码
df_dummies = pd.get_dummies(df, columns=["color"])
print(df_dummies)

👉 输出:

   id size  color_blue  color_green  color_red
0   1    S           0            0          1
1   2    M           0            1          0
2   3    L           1            0          0
3   4    M           0            0          1

(3)加前缀

df_dummies = pd.get_dummies(df, columns=["size"], prefix="SIZE")
print(df_dummies)

👉 输出:

   id color  SIZE_L  SIZE_M  SIZE_S
0   1   red       0       0       1
1   2 green       0       1       0
2   3  blue       1       0       0
3   4   red       0       1       0

(4)避免虚拟变量陷阱(drop_first=True)

df_dummies = pd.get_dummies(df, columns=["color"], drop_first=True)
print(df_dummies)

👉 输出(少一列,避免多重共线性):

   id size  color_green  color_red
0   1    S            0          1
1   2    M            1          0
2   3    L            0          0
3   4    M            0          1

✅ 总结:

  • get_dummies() → 分类变量转 0/1 矩阵

  • columns 指定哪些列编码

  • prefix/prefix_sep 控制列名

  • drop_first=True → 回归模型常用,避免虚拟变量陷阱

http://www.xdnf.cn/news/18537.html

相关文章:

  • AI大模型 限时找我领取
  • 心灵笔记:人生管理模型
  • 简单AI:搜狐公司旗下AI绘画产品
  • 均匀实心球内部引力与半径成正比的牛顿壳层定理证明
  • MATLAB实现CNN-LSTM-Attention 时序和空间特征结合-融合注意力机制混合神经网络模型的风速预测
  • c语言学习_数组使用_扫雷1
  • 1.十天通关常见算法100题(第一天)
  • 科研笔记:博士生手册
  • 【每天一个知识点】训推一体机
  • 数据结构的线性表:顺序表
  • 坑洼铁皮矫平机:把“波浪”变成“镜面”的科学魔法
  • 旅行足迹App技术架构全解析
  • 二、BPMNJS简介
  • 【51单片机非精准延时演示来回流水灯效果】2022-11-10
  • Claude Code赋能企业级开发:外卖平台核心系统的智能化重构
  • n8n 键盘快捷键和控制
  • 【Canvas与徽章】中国制造金色玻璃光徽章
  • 生成模型 | 扩散模型损失函数公式推导
  • 复杂工况漏检率↓79%!陌讯多模态融合算法在智慧能源设备检测的落地实践
  • Python 版本与 package 版本兼容性检查方法
  • 【Linux系列】macOS(MacBook)上获取 MAC 地址
  • 内网穿透教程
  • React学习(十三)
  • Java 泛型 T、E、K、V、?、S、U、V
  • week4-[字符数组]字符统计
  • 详细介绍将 AList 搭建 WebDav 添加到 PotPlayer 专辑 的方法
  • 基于Python与Tkinter的校园点餐系统设计与实现
  • 单片机的输出模式推挽和开漏如何选择呢?
  • [新启航]白光干涉仪与激光干涉仪的区别及应用解析
  • 【typenum】 24 去除尾部零的特性(private.rs片段)