当前位置: 首页 > ds >正文

数据集:机器学习的基石

三、数据集:机器学习的基石

1. sklearn 玩具数据集:快速入门的理想选择

1.1 玩具数据集的特点与价值

sklearn 内置的玩具数据集(Toy Datasets)是机器学习入门的绝佳资源。这类数据集通常具有以下特点:

  • 数据量小:样本数量通常在几十到几千之间,例如鸢尾花数据集仅包含 150 个样本,便于快速加载和处理。
  • 本地存储:无需联网即可直接通过sklearn.datasets模块调用,如load_iris()函数直接返回数据集对象。
  • 结构清晰:特征和标签明确,适合用于算法原理验证和可视化分析。
1.2 经典案例:鸢尾花数据集解析

鸢尾花数据集是分类任务的经典示例,包含 3 个类别(山鸢尾、变色鸢尾、维吉尼亚鸢尾),每个样本由 4 个特征描述(花萼长宽、花瓣长宽)。以下是加载和分析该数据集的完整流程:

from sklearn.datasets import load_iris

import pandas as pd

# 加载数据集

iris = load_iris()

X, y = iris.data, iris.target

# 数据整合与可视化

data = pd.DataFrame(X, columns=iris.feature_names)

data['target'] = y

data['target_name'] = data['target'].map(dict(zip(iris.target, iris.target_names)))

# 特征分布可视化

import seaborn as sns

import matplotlib.pyplot as plt

sns.pairplot(data, hue='target_name', height=2.5)

plt.show()

运行上述代码会生成特征关系矩阵图,清晰展示不同类别在各特征上的分布差异。例如,维吉尼亚鸢尾的花瓣长度明显大于其他两类,这为后续特征工程提供了直观依据。

1.3 其他常用玩具数据集

除鸢尾花外,sklearn 还提供了多种类型的玩具数据集:

  • 回归任务:波士顿房价数据集(load_boston())用于预测房价,包含 13 个特征和 1 个连续目标值。
  • 聚类任务:手写数字数据集(load_digits())包含 8x8 像素的手写数字图像,可用于无监督特征提取。
  • 多分类任务:葡萄酒数据集(load_wine())包含 13 个化学特征,用于区分 3 种葡萄酒类型。

2. sklearn 现实世界数据集:实战项目的数据源

2.1 现实世界数据集的特点

与玩具数据集相比,现实世界数据集(Real-world Datasets)具有以下特点:

  • 数据量大:样本数量通常在万级以上,例如 20 新闻组数据集包含近 2 万篇文档。
  • 网络获取:需通过网络下载,默认存储路径可通过datasets.get_data_home()查看。
  • 复杂性高:数据可能包含缺失值、噪声或高维特征,需进行复杂预处理。
2.2 典型案例:20 新闻组文本分类

20 新闻组数据集是文本分类的经典基准,包含 20 个主题的新闻文档。以下是加载和处理该数据集的关键步骤:

from sklearn.datasets import fetch_20newsgroups

# 加载训练集与测试集

train_data = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'))

test_data = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'))

# 文本特征提取(TF-IDF)

from sklearn.feature_extraction.text import TfidfVectorizer

vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000)

X_train = vectorizer.fit_transform(train_data.data)

X_test = vectorizer.transform(test_data.data)

# 模型训练与评估

from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import classification_report

clf = RandomForestClassifier(n_estimators=100)

clf.fit(X_train, train_data.target)

y_pred = clf.predict(X_test)

print(classification_report(test_data.target, y_pred, target_names=train_data.target_names))

2.3 数据下载与缓存机制

现实世界数据集首次下载时会自动保存到本地缓存目录,后续调用无需重复下载。若需指定存储路径,可通过data_home参数实现:

news = fetch_20newsgroups(data_home='./datasets', subset='all')

3. 本地 CSV 数据:自定义数据集的处理

3.1 CSV 文件的创建与加载

CSV(逗号分隔值)是最常用的数据集格式之一。以下是创建和加载 CSV 文件的两种方法:

方式 1:手动创建

milage,Liters,Consumtime,target

40920,8.326976,0.953952,3

14488,7.153469,1.673904,2

26052,1.441871,0.805124,1

75136,13.147394,0.428964,1

方式 2:使用 pandas 生成

import pandas as pd

data = {

    'milage': [40920, 14488, 26052, 75136],

    'Liters': [8.326976, 7.153469, 1.441871, 13.147394],

    'Consumtime': [0.953952, 1.673904, 0.805124, 0.428964],

    'target': [3, 2, 1, 1]

}

df = pd.DataFrame(data)

df.to_csv('custom_data.csv', index=False)

加载 CSV 文件:

df = pd.read_csv('custom_data.csv')

X = df.drop('target', axis=1)

y = df['target']

3.2 数据清洗与预处理

实际项目中,本地 CSV 数据可能存在缺失值、异常值等问题。以下是常用处理方法:

缺失值填充:

from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')

X_imputed = imputer.fit_transform(X)

异常值检测:

from scipy.stats import zscore

z_scores = zscore(X)

mask = np.abs(z_scores) < 3  # 保留Z-score绝对值小于3的数据

X_clean = X[mask.all(axis=1)]

y_clean = y[mask.all(axis=1)]

4. 数据集划分:模型评估的关键步骤

4.1 基础划分方法:train_test_split

train_test_split是最常用的数据集划分工具,可将数据随机划分为训练集和测试集:

from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

参数说明:

  • test_size:测试集比例(0.0-1.0)。
  • random_state:随机种子,确保结果可复现。
  • stratify:分层抽样,适用于类别分布不均的分类任务。
4.2 进阶划分策略:交叉验证

交叉验证(Cross-Validation)通过多次划分数据评估模型稳定性,常用方法包括:

K 折交叉验证:

from sklearn.model_selection import KFold

kf = KFold(n_splits=5, shuffle=True, random_state=42)

for train_index, test_index in kf.split(X):

    X_train, X_test = X[train_index], X[test_index]

    y_train, y_test = y[train_index], y[test_index]

分层 K 折交叉验证:

from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

for train_index, test_index in skf.split(X, y):

    X_train, X_test = X[train_index], X[test_index]

    y_train, y_test = y[train_index], y[test_index]

4.3 模型调优与网格搜索

结合交叉验证和网格搜索(Grid Search)可自动寻找最优超参数:

from sklearn.model_selection import GridSearchCV

param_grid = {

    'n_estimators': [50, 100],

    'max_depth': [None, 10]

}

grid_search = GridSearchCV(RandomForestClassifier(), param_grid, cv=5)

grid_search.fit(X_train, y_train)

print(grid_search.best_params_)

5. 数据预处理:提升模型性能的关键

5.1 特征标准化与归一化

标准化(Standardization)和归一化(Normalization)是常用的特征缩放方法:

标准化:

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

X_scaled = scaler.fit_transform(X_train)

X_test_scaled = scaler.transform(X_test)

归一化:

from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler(feature_range=(0, 1))

X_normalized = scaler.fit_transform(X_train)

X_test_normalized = scaler.transform(X_test)

5.2 文本特征提取

对于文本数据,常用 TF-IDF(词频 - 逆文档频率)进行特征提取:

from sklearn.feature_extraction.text import TfidfVectorizer

corpus = ["The quick brown fox jumps over the lazy dog",

          "Never jump over the lazy dog twice"]

vectorizer = TfidfVectorizer()

X_tfidf = vectorizer.fit_transform(corpus)

print(vectorizer.get_feature_names_out())

5.3 类别特征处理

对于类别特征,可使用OneHotEncoder进行独热编码:

from sklearn.preprocessing import OneHotEncoder

data = [['Male', 1], ['Female', 2], ['Male', 3]]

encoder = OneHotEncoder()

X_encoded = encoder.fit_transform(data)

6. 大规模数据处理:技术与工具

6.1 分块加载与处理

当数据量超过内存容量时,可使用分块加载:

import pandas as pd

chunk_size = 10000

for chunk in pd.read_csv('large_data.csv', chunksize=chunk_size):

    process(chunk)  # 对每个数据块进行处理

6.2 分布式计算框架

Dask 是一个灵活的并行计算库,可处理远超内存的数据集:

import dask.dataframe as dd

df = dd.read_csv('large_data.csv', blocksize=1e6)

df = df.dropna()

df['mean'] = df.mean(axis=1)

df.compute()  # 触发计算

6.3 模型优化与内存管理
  • 使用稀疏矩阵:对于高维稀疏数据(如文本特征),使用scipy.sparse矩阵可显著减少内存占用。
  • 在线学习:使用partial_fit方法进行增量训练,避免一次性加载全部数据:

from sklearn.linear_model import SGDClassifier

clf = SGDClassifier()

for chunk in pd.read_csv('large_data.csv', chunksize=1000):

    X_chunk = chunk.drop('target', axis=1)

    y_chunk = chunk['target']

    clf.partial_fit(X_chunk, y_chunk, classes=np.unique(y))

7. 数据隐私保护:合规与安全

7.1 数据匿名化

通过删除或泛化个人标识信息(PII)实现匿名化:

import pandas as pd

df = pd.read_csv('patient_data.csv')

df_anonymized = df.drop(['name', 'ssn'], axis=1)  # 删除敏感列

df_anonymized['age'] = pd.cut(df_anonymized['age'], bins=10)  # 年龄分箱

7.2 差分隐私

差分隐私(Differential Privacy)通过添加噪声保护个体隐私:

import numpy as np

from diffprivlib.mechanisms import Laplace

mechanism = Laplace(epsilon=1.0, delta=0.0001)

result = mechanism.randomise(df['age'].mean())

7.3 联邦学习

联邦学习允许多机构联合训练模型而不共享原始数据:

from syft.frameworks.torch.fl import FederatedLearningClient

client = FederatedLearningClient()

client.connect("http://server:8080")

client.send_model(model)

client.receive_model()

8. 数据集版本控制与管理

8.1 使用 DVC 管理数据集

DVC(Data Version Control)是专门用于数据版本控制的工具:

dvc init

dvc add large_data.csv

dvc commit -m "Add initial dataset"

8.2 数据目录结构建议

project/

├── data/

│   ├── raw/           # 原始数据

│   ├── processed/     # 预处理后的数据

│   └── external/      # 第三方数据集

├── models/            # 训练好的模型

├── notebooks/         # 分析脚本

└── reports/           # 结果报告

9. 常见问题与解决方案

9.1 数据下载失败

使用requests库实现重试机制:

import requests

from requests.adapters import HTTPAdapter

from requests.packages.urllib3.util.retry import Retry

session = requests.Session()

retries = Retry(total=5, backoff_factor=1)

session.mount('https://', HTTPAdapter(max_retries=retries))

response = session.get('https://example.com/dataset.zip')

9.2 内存不足
  • 使用生成器:

def batch_generator(X, y, batch_size=32):

    for i in range(0, len(X), batch_size):

        yield X[i:i+batch_size], y[i:i+batch_size]

  • 分块处理:

from sklearn.externals.joblib import Parallel, delayed

def process_chunk(chunk):

    # 对数据块进行处理

    return processed_chunk

results = Parallel(n_jobs=-1)(delayed(process_chunk)(chunk) for chunk in chunks)

9.3 数据格式不兼容

使用pandas进行格式转换:

df = pd.read_excel('data.xlsx')

df.to_parquet('data.parquet')  # 转换为Parquet格式

10. 实战案例:MNIST 手写数字识别

10.1 数据加载与预处理

from sklearn.datasets import fetch_openml

# 加载MNIST数据集

mnist = fetch_openml('mnist_784', version=1, as_frame=False)

X, y = mnist.data, mnist.target.astype(int)

# 数据归一化

X = X / 255.0

# 划分训练集与测试集

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

10.2 模型训练与评估

from sklearn.ensemble import RandomForestClassifier

clf = RandomForestClassifier(n_estimators=100)

clf.fit(X_train, y_train)

y_pred = clf.predict(X_test)

accuracy = clf.score(X_test, y_test)

print(f"Test Accuracy: {accuracy:.4f}")

10.3 模型保存与加载

from sklearn.externals.joblib import dump, load

# 保存模型

dump(clf, 'mnist_model.joblib')

# 加载模型

loaded_clf = load('mnist_model.joblib')

结语

数据集是机器学习的基石,其质量和处理方式直接影响模型性能。通过掌握 sklearn 提供的数据集加载工具、数据预处理技术和模型评估方法,开发者能够高效地将原始数据转化为可用于训练的高质量输入。同时,合理运用分布式计算、隐私保护和版本控制技术,可进一步提升项目的可扩展性和可靠性。在实践中,建议结合具体业务需求选择合适的数据集和处理流程,并持续关注数据安全与合规性要求。通过不断积累经验,开发者将逐步掌握从数据中挖掘价值的核心能力,为人工智能项目的成功奠定基础。

http://www.xdnf.cn/news/16794.html

相关文章:

  • RPA软件推荐:提升企业自动化效率
  • 北京理工大学医工交叉教学实践分享(1)|如何以实践破解数据挖掘教学痛点
  • 在 Elasticsearch 8.19 和 9.1 中引入更强大、更具弹性和可观测性的 ES|QL
  • 《Vuejs设计与实现》第 12 章(组件实现原理 下)
  • 44、鸿蒙HarmonyOS Next开发:视频播放 (Video)组件和进度条 (Progress)组件的使用
  • OSS-服务端签名Web端直传+STS获取临时凭证+POST签名v4版本开发过程中的细节
  • webpack-性能优化
  • STM32CubeMX 生成时钟获取函数的分析
  • 【网络运维】 Linux:使用 Cockpit 管理服务器
  • 矩阵指数函数 e^A
  • 移动管家手机控车系统硬件安装与软件绑定设置
  • LeetCode 4:寻找两个正序数组的中位数
  • DISTILLM:迈向大型语言模型的简化蒸馏方法
  • 基于React+Express的前后端分离的个人相册管理系统
  • OpenBayes 一周速览丨Self Forcing 实现亚秒级延迟实时流视频生成;边缘AI新秀,LFM2-1.2B采用创新性架构超越传统模型
  • 爱车生活汽车GPS定位器:智能监控与安全驾驶的守护者
  • 云原生环境里的显示变革:Docker虚拟浏览器与cpolar穿透技术实战
  • 新零售“实—虚—合”逻辑下的技术赋能与模式革新:基于开源AI大模型、AI智能名片与S2B2C商城小程序源码的研究
  • RAG:检索增强生成的范式演进、技术突破与前沿挑战
  • pytorch入门2:利用pytorch进行概率预测
  • 智慧城市SaaS平台|市政公用管理系统
  • LeetCode Hot 100 搜索旋转排序数组
  • Java项目:基于SSM框架实现的济南旅游网站管理系统【ssm+B/S架构+源码+数据库+毕业论文+远程部署】
  • Linux系统指令之 —— passwd
  • 【maven】仓库配置
  • 基于 Hadoop 生态圈的数据仓库实践 —— OLAP 与数据可视化(二)
  • 15.10 单机8卡到千卡集群!DeepSpeed实战调参手册:A100训练效率翻倍,百万成本优化实录
  • 【C++详解】深入解析多态 虚函数、虚函数重写、纯虚函数和抽象类、多态原理、重载/重写/隐藏的对⽐
  • composer 常用命令
  • Unity_XR控制手部动画