当前位置: 首页 > news >正文

机器学习中采样哪些事

在机器学习中采样主要分为两种,过采样(Oversample)和欠采样(Undersample)。过采样就是通过增加少数类样本的数量来平衡数据集。而欠采样就是通过减少多数类样本的数量来平衡数据集。

通常在进行采样中以下是几种常用的方法:

1. 随机采样

随机采样适用于过采样和欠采样。其操作方法就是随机复制增加少数类样本或者随机增加删除减少多数类样本。

下面是一个代码例子:

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import RandomOverSampler
from imblearn.under_sampling import RandomUnderSampler#创建一个不平衡的分类数据集
X, y = make_classification(n_classes=2, class_sep=2,weights=[0.1, 0.9], n_informative=3, n_redundant=1,flip_y=0,n_features=20, n_clusters_per_class=1, n_samples=1000, random_state=10)df = pd.DataFrame(X)
df['target'] = y
# 查看类别分布
print("Original dataset shape:", df['target'].value_counts())# 随机过采样
ros = RandomOverSampler(random_state=42)
X_resampled_ros, y_resampled_ros = ros.fit_resample(X, y)
df_ros = pd.DataFrame(X_resampled_ros)
df_ros['target'] = y_resampled_ros
# 查看过采样后的类别分布
print("Resampled dataset shape (Oversampling):", df_ros['target'].value_counts())#随机负采样
rus = RandomUnderSampler(random_state=42)
X_resampled_rus, y_resampled_rus = rus.fit_resample(X, y)
df_rus = pd.DataFrame(X_resampled_rus)
df_rus['target'] = y_resampled_rus
print("Resampled dataset shape (Undersampling):", df_rus['target'].value_counts())

2.SMOTE

通过在少数类样本之间插值生成合成样本,通常用于过采样。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.over_sampling import SMOTE# 省略df
#......
# 过采样
smote = SMOTE(random_state=42)X_resampled_smote, y_resampled_smote = smote.fit_resample(X, y)
df_smote = pd.DataFrame(X_resampled_smote)
df_smote['target'] = y_resampled_smote
print("Resampled dataset shape (SMOTE):", df_smote['target'].value_counts())

3.Tomek Links

这种方法是通过删除多数类中靠近少数类的边界样本来实现欠采样。工作原理如下:

计算最近邻:对于每个样本,计算其最近邻样本。

识别 Tomek Links:如果一个多数类样本的最近邻是一个少数类样本,那么这两个样本构成一个 Tomek Link。

移除多数类样本:从数据集中移除那些构成 Tomek Link 的多数类样本。

重复上述步骤:直到没有更多的 Tomek Links 

Tomek Links通过移除边界上的多数类样本,可以减少多数类样本的数量,同时尽量保留数据集的结构信息。适用于处理那些多数类样本与少数类样本紧密相连的情况。但是同时Tomek Links不能完全平衡数据集,因为移除的样本数量有限。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.under_sampling import TomekLinks# 初始化 TomekLinks
tomek = TomekLinks()# 欠采样
X_resampled_tomek, y_resampled_tomek = tomek.fit_resample(X, y)df_tomek = pd.DataFrame(X_resampled_tomek)
df_tomek['target'] = y_resampled_tomek
print("Resampled dataset shape (Tomek Links):", df_tomek['target'].value_counts())

4.NearMiss

NearMiss 是一种基于最近邻的欠采样方法,用于处理不平衡数据集。它的核心思想是通过移除多数类中与少数类样本距离较近的样本,或者移除多数类中距离最远的样本,从而减少多数类的样本数量。NearMiss 提供了多种策略来选择需要移除的样本。

import numpy as np
import pandas as pd
from sklearn.datasets import make_classification
from imblearn.under_sampling import NearMiss# df#NearMiss 提供了三种策略:
#版本 1:移除多数类中与少数类样本距离最近的样本。
#版本 2:移除多数类中与少数类样本距离最远的样本。
#版本 3:移除多数类中距离最远的样本,但不考虑少数类样本。# 初始化 NearMiss,选择版本 1
nearmiss = NearMiss(version=1, random_state=42)X_resampled_nearmiss, y_resampled_nearmiss = nearmiss.fit_resample(X, y)df_nearmiss = pd.DataFrame(X_resampled_nearmiss)
df_nearmiss['target'] = y_resampled_nearmiss
print("Resampled dataset shape (NearMiss Version 1):", df_nearmiss['target'].value_counts())

http://www.xdnf.cn/news/456265.html

相关文章:

  • 牛客网NC22157:牛牛学数列2
  • RPC与SOAP的区别
  • C语言-8.数组
  • AI大模型从0到1记录学习numpy pandas day24
  • ES常识9:如何实现同义词映射(搜索)
  • maven dependencyManagement标签作用
  • 【软件工具】基于PDF文件内容识别的改名软件,PDF根据内容自动重命名,如何识别pdf内容并做文件命名,PDF批量改名
  • IP防护等级举例解析
  • AD 多层线路及装配图PDF的输出
  • 【web应用】配置Java JDK与maven3的环境变量
  • QMK固件OLED显示屏配置教程:从零开始实现个性化键盘显示(实操部分)
  • 低成本高效图像生成:GPUGeek和ComfyUI的强强联合
  • QT 使用QPdfWriter和QPainter绘制PDF文件
  • 2025最新ChatGPT Plus令牌(Token)限制完全指南:每日/每月用量详解与突破方法
  • 浏览器自动化:RPA 解决方案的崛起
  • [Harmony]封装一个可视化的数据持久化工具
  • Aquatone安装与使用
  • 科学养生指南:解锁健康生活的密码
  • Kind方式部署k8s单节点集群并创建nginx服务对外访问
  • 渗透测试流程-上篇
  • 养生:解锁健康生活的核心密码
  • 磁盘I/O瓶颈排查:面试通关“三部曲”心法
  • Python logging模块使用指南
  • 争对机器学习和深度学习里Python项目开发管理项目依赖的工具中方便第三方库和包的安装
  • 用FileCodeBox打造私有文件传输:Ubuntu环境保姆级部署教程!
  • 《C++ vector详解》
  • Python----神经网络(基于DNN的风电功率预测)
  • GpuGeek:为创新者提供灵活、快速、高效的云计算服务!
  • PHP基础知识
  • 以项目的方式学QT开发(二)