当前位置：首页 > java >正文

用逻辑回归（Logistic Regression）处理鸢尾花（iris）数据集

java 2025/7/20 7:16:35

# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (accuracy_score, confusion_matrix,classification_report, ConfusionMatrixDisplay)
from sklearn.preprocessing import StandardScaler# 1. 加载鸢尾花数据集
iris = load_iris()
# 转换为DataFrame方便查看（特征+标签）
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['species'] = [iris.target_names[i] for i in iris.target]  # 添加花名标签# 2. 数据基本信息查看
print("数据集形状：", iris.data.shape)  # 150个样本，4个特征
print("\n特征名称：", iris.feature_names)  # 花萼长度、宽度，花瓣长度、宽度
print("\n类别名称：", iris.target_names)  # 山鸢尾、变色鸢尾、维吉尼亚鸢尾# 3. 数据划分（特征X和标签y）
X = iris.data  # 特征：4个植物学测量值
y = iris.target  # 标签：0,1,2分别对应三种鸢尾花# 划分训练集（80%）和测试集（20%），随机种子确保结果可复现
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y  # stratify=y保持类别比例
)# 4. 特征标准化（逻辑回归对特征尺度敏感，标准化可提升性能）
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)  # 训练集拟合并标准化
X_test_scaled = scaler.transform(X_test)  # 测试集使用相同的标准化参数# 5. 训练逻辑回归模型（多分类任务）
model = LogisticRegression(max_iter=200, random_state=42)  # 增加迭代次数确保收敛
model.fit(X_train_scaled, y_train)# 6. 模型预测
y_pred = model.predict(X_test_scaled)  # 测试集预测标签
y_pred_proba = model.predict_proba(X_test_scaled)  # 预测每个类别的概率# 7. 模型评估
print("\n===== 模型评估结果 =====")
print(f"训练集准确率：{model.score(X_train_scaled, y_train):.4f}")
print(f"测试集准确率：{accuracy_score(y_test, y_pred):.4f}")print("\n混淆矩阵：")
cm = confusion_matrix(y_test, y_pred)
disp = ConfusionMatrixDisplay(confusion_matrix=cm, display_labels=iris.target_names)
disp.plot(cmap=plt.cm.Blues)
plt.title("混淆矩阵（测试集）")
plt.show()print("\n分类报告：")
print(classification_report(y_test, y_pred, target_names=iris.target_names))# 8. 特征重要性分析（逻辑回归系数）
feature_importance = pd.DataFrame({'特征': iris.feature_names,'系数绝对值': np.abs(model.coef_).mean(axis=0)  # 多分类取各系数的绝对值均值
}).sort_values(by='系数绝对值', ascending=False)print("\n特征重要性（系数绝对值）：")
print(feature_importance)# 可视化特征重要性
plt.figure(figsize=(8, 4))
sns.barplot(x='系数绝对值', y='特征', data=feature_importance, palette='coolwarm')
plt.title("特征对分类的重要性")
plt.show()# 9. 新样本预测示例
# 假设一个新的鸢尾花测量数据（花萼长、花萼宽、花瓣长、花瓣宽）
new_sample = np.array([[5.8, 3.0, 4.9, 1.6]])  # 接近变色鸢尾的特征
new_sample_scaled = scaler.transform(new_sample)  # 标准化# 预测结果
predicted_class = model.predict(new_sample_scaled)
predicted_prob = model.predict_proba(new_sample_scaled)print("\n===== 新样本预测 =====")
print(f"预测类别：{iris.target_names[predicted_class[0]]}")
print("各类别概率：")
for i, prob in enumerate(predicted_prob[0]):print(f"{iris.target_names[i]}: {prob:.4f}")

这段代码使用逻辑回归算法对经典的鸢尾花数据集进行分类，是一个完整的机器学习项目流程。

1. 导入必要的库

import numpy as np

import pandas as pd

import matplotlib.pyplot as plt

import seaborn as sns

from sklearn.datasets import load_iris

from sklearn.model_selection import train_test_split

from sklearn.linear_model import LogisticRegression

from sklearn.metrics import (accuracy_score, confusion_matrix,

classification_report, ConfusionMatrixDisplay)

from sklearn.preprocessing import StandardScaler

numpy/pandas：用于数据处理（如矩阵运算、表格操作）。
matplotlib/seaborn：用于绘制图表（如混淆矩阵、特征重要性）。
sklearn：机器学习库，提供数据集、模型、评估工具。

2. 加载和查看数据

iris = load_iris() # 加载内置鸢尾花数据集

iris_df = pd.DataFrame(iris.data, columns=iris.feature_names)

iris_df['species'] = [iris.target_names[i] for i in iris.target]

print("数据集形状：", iris.data.shape) # (150, 4) → 150个样本，4个特征

print("特征名称：", iris.feature_names) # 花瓣/花萼的长度、宽度

print("类别名称：", iris.target_names) # ['setosa' 'versicolor' 'virginica']

鸢尾花数据集：包含 150 朵花的数据，分为 3 个品种（每个品种 50 朵）。
4 个特征：花瓣长度、花瓣宽度、花萼长度、花萼宽度（都是厘米）。
目标：根据这 4 个特征预测花的品种。

3. 数据划分（训练集和测试集）

X = iris.data # 特征（花瓣/花萼的测量值）

y = iris.target # 标签（0/1/2对应3个品种）

X_train, X_test, y_train, y_test = train_test_split(

X, y, test_size=0.2, random_state=42, stratify=y

)

train_test_split：将数据分为 80% 训练集和 20% 测试集。
1. stratify=y：确保训练集和测试集中 3 个品种的比例相同（避免数据偏斜）。
2. random_state=42：固定随机种子，确保结果可复现（每次运行划分结果相同）。

4. 特征标准化

scaler = StandardScaler()

X_train_scaled = scaler.fit_transform(X_train) # 训练集标准化

X_test_scaled = scaler.transform(X_test) # 测试集用相同参数标准化

为什么标准化？：逻辑回归对特征尺度敏感（例如，如果某个特征的数值范围很大，会影响模型收敛）。
StandardScaler：将特征转换为均值为 0、标准差为 1 的标准正态分布。
1. fit_transform：计算训练集的均值 / 标准差，并应用转换。
2. transform：用训练集的统计参数（均值 / 标准差）转换测试集（不能重新计算）。