当前位置：首页 > news >正文

机器学习的多种算法

news 2025/8/19 5:37:24

机器学习分类算法的参数优化与性能评估：基于网格搜索的实践指南

引言

在机器学习领域，选择合适的算法并进行参数优化是构建高性能模型的关键步骤。即使是同一种算法，不同的参数设置也可能导致模型性能的巨大差异。本文将深入探讨六种常用的分类算法，详细介绍如何使用网格搜索（Grid Search）进行参数优化，并通过分类报告（Classification Report）全面评估模型性能。

无论是机器学习初学者还是有经验的从业者，掌握参数调优技巧都能显著提升模型的预测能力。本文将通过具体的代码实例，带你一步步完成从数据准备、模型训练、参数优化到性能评估的全过程，帮助你建立起系统的模型优化思维。

1. 实验环境与数据准备

1.1 实验环境配置

本实验使用 Python 作为编程语言，主要依赖以下库：

numpy：用于数值计算
pandas：用于数据处理与分析
scikit-learn：提供机器学习算法与工具
matplotlib：用于数据可视化
seaborn：用于更美观的数据可视化

安装所需库的命令：

bash

pip install numpy pandas scikit-learn matplotlib seaborn

1.2 数据集选择与介绍

为了使实验结果具有代表性，我们将使用 scikit-learn 库中的多个经典数据集，包括：

鸢尾花数据集（Iris）：多类别分类问题，包含 3 种鸢尾花的特征数据
乳腺癌数据集（Breast Cancer）：二分类问题，判断肿瘤是良性还是恶性
葡萄酒数据集（Wine）：多类别分类问题，包含 3 种葡萄酒的化学成分数据

这些数据集各有特点，能够全面展示不同算法在各类问题上的表现。

1.3 数据预处理

数据预处理是机器学习流程中至关重要的一步，直接影响模型性能。我们将执行以下预处理步骤：

数据加载与探索
缺失值处理
特征标准化 / 归一化
数据集划分（训练集与测试集）

2. 六种经典分类算法原理详解

2.1 逻辑回归（Logistic Regression）

逻辑回归是一种广泛使用的分类算法，尽管名称中包含 "回归"，但实际上用于解决分类问题。

原理：逻辑回归通过 Sigmoid 函数将线性回归的输出（连续值）映射到 [0,1] 区间，从而实现对分类概率的预测。

Sigmoid 函数公式：
σ(z) = 1 / (1 + e^(-z))，其中 z = w・x + b

优缺点：

优点：实现简单，训练速度快，输出具有概率意义，可解释性强
缺点：只能处理线性可分问题，表达能力有限，对异常值敏感

适用场景：二分类问题，需要概率输出的场景，作为基准模型

2.2 支持向量机（Support Vector Machine, SVM）

SVM 是一种强大的分类算法，在中小型数据集上表现优异。

原理：SVM 通过寻找一个最优超平面来最大化类别间的间隔，对于非线性问题，可以通过核函数将数据映射到高维空间，从而实现线性可分。

常用核函数：

线性核（Linear Kernel）：k (x,y) = x・y
多项式核（Polynomial Kernel）：k (x,y) = (x・y + c)^d
径向基核（RBF Kernel）：k (x,y) = exp (-γ||x-y||²)

优缺点：

优点：在高维空间中表现良好，对小样本数据集效果好，泛化能力强
缺点：计算复杂度高，对大规模数据集训练较慢，参数调优复杂

适用场景：中小型数据集的分类问题，文本分类，图像识别等

2.3 决策树（Decision Tree）

决策树是一种直观易懂的分类算法，模拟人类决策过程。

原理：决策树通过递归地选择最优特征对数据进行划分，构建一棵包含决策节点和叶节点的树。每个内部节点代表一个特征判断，每个叶节点代表一个分类结果。

常用分裂准则：

信息增益（ID3 算法）
信息增益比（C4.5 算法）
Gini 指数（CART 算法）

优缺点：

优点：可解释性强，无需特征归一化，能处理非线性关系，可同时处理数值型和类别型特征
缺点：容易过拟合，对噪声敏感，可能产生偏斜树

适用场景：需要解释性的分类问题，作为集成学习的基模型

2.4 随机森林（Random Forest）

随机森林是一种集成学习算法，通过构建多个决策树并综合其结果来提高预测性能。

原理：随机森林使用 bootstrap 抽样方法从原始数据中生成多个训练集，为每个训练集构建一棵决策树，在构建过程中随机选择部分特征进行分裂。最终预测结果通过投票（分类）或平均（回归）方式确定。

优缺点：

优点：泛化能力强，不易过拟合，能处理高维数据，可评估特征重要性
缺点：计算复杂度高，模型体积较大，对噪声数据敏感

适用场景：各种分类问题，特征重要性评估，作为基准模型

2.5 K 近邻（K-Nearest Neighbors, KNN）

KNN 是一种简单直观的惰性学习（Lazy Learning）算法。

原理：KNN 不构建显式模型，而是在预测时，根据待预测样本的 K 个最近邻样本的类别来确定其类别。通常使用投票法（少数服从多数）确定最终类别。

距离度量：

欧氏距离（Euclidean Distance）
曼哈顿距离（Manhattan Distance）
余弦相似度（Cosine Similarity）

优缺点：

优点：实现简单，无需训练过程，对新数据适应能力强
缺点：计算复杂度高，对高维数据效果差，对不平衡数据敏感，对距离度量敏感

适用场景：小数据集分类，推荐系统，模式识别

2.6 梯度提升机（Gradient Boosting Machine, GBM）

梯度提升机是另一种强大的集成学习算法，通过迭代构建多个弱学习器并组合它们的预测结果。

原理：梯度提升机采用加法模型（即基函数的线性组合）和前向分步算法，通过不断迭代来最小化损失函数。每一轮迭代都构建一个新的弱学习器（通常是决策树），来拟合当前模型的残差。

优缺点：

优点：预测精度高，能处理各种类型数据，对异常值不敏感
缺点：训练时间长，参数调优复杂，容易过拟合

适用场景：各种分类和回归问题，数据竞赛，需要高精度预测的场景

3. 网格搜索参数优化方法

3.1 网格搜索原理

网格搜索是一种穷举式的参数优化方法，通过构建参数的网格空间，对网格中的每个参数组合进行模型训练和评估，最终选择性能最优的参数组合。

基本流程：

定义参数网格：为每个待优化参数指定候选值
遍历参数组合：对网格中的每个参数组合，训练模型并评估性能
选择最优参数：根据评估指标选择性能最佳的参数组合

3.2 交叉验证与网格搜索

为了更可靠地评估模型性能并避免过拟合，网格搜索通常与交叉验证（Cross Validation）结合使用。

K 折交叉验证（K-Fold Cross Validation）将数据集分成 K 个互不相交的子集，依次使用其中 K-1 个子集作为训练集，剩余 1 个子集作为验证集，重复 K 次，最终取 K 次评估结果的平均值作为模型性能指标。

3.3 网格搜索的优缺点

优点：

实现简单，易于理解和使用
能找到指定参数空间内的最优解
适合小到中等规模的参数空间

缺点：

计算复杂度高，参数数量和候选值增多时，计算量呈指数增长
可能陷入局部最优解
忽略了参数之间的相关性

3.4 网格搜索的改进方法

为了克服网格搜索的缺点，研究者提出了多种改进方法：

随机搜索（Random Search）：随机采样参数空间，在大多数情况下能比网格搜索更高效地找到接近最优的参数组合
贝叶斯优化（Bayesian Optimization）：基于先验结果构建概率模型，指导下一次参数选择，比网格搜索和随机搜索更高效
遗传算法（Genetic Algorithms）：受生物进化启发，通过选择、交叉和变异操作寻找最优参数组合

4. 模型评估与分类报告解读

4.1 常用分类评估指标

准确率（Accuracy）：正确预测的样本数占总样本数的比例
准确率 = (TP + TN) / (TP + TN + FP + FN)
精确率（Precision）：预测为正的样本中实际为正的比例
精确率 = TP / (TP + FP)
召回率（Recall）：实际为正的样本中被正确预测为正的比例
召回率 = TP / (TP + FN)
F1 分数（F1-Score）：精确率和召回率的调和平均，综合考虑两者的表现
F1 分数 = 2 * (精确率 * 召回率) / (精确率 + 召回率)
混淆矩阵（Confusion Matrix）：以矩阵形式展示分类结果，行表示实际类别，列表示预测类别

其中：

TP（True Positive）：实际为正，预测为正
TN（True Negative）：实际为负，预测为负
FP（False Positive）：实际为负，预测为正（误报）
FN（False Negative）：实际为正，预测为负（漏报）

4.2 分类报告详解

scikit-learn 库提供的classification_report函数可以生成详细的分类评估报告，包含每个类别的精确率、召回率、F1 分数和支持度（该类别的样本数量），以及宏平均（macro avg）和加权平均（weighted avg）指标。

宏平均：计算每个类别的指标，然后取简单平均值，不考虑类别不平衡问题
加权平均：计算每个类别的指标，然后按每个类别的样本比例加权平均，考虑类别不平衡问题

解读分类报告时，需要综合考虑各个指标，避免单一指标带来的片面性。例如，准确率在不平衡数据集上可能会产生误导，此时应重点关注少数类别的精确率、召回率和 F1 分数。

5. 完整实验流程与代码实现

下面我们将实现一个完整的实验流程，包括数据准备、模型定义、参数网格设置、网格搜索与交叉验证、模型评估等步骤。

5.1 导入必要的库

# 导入必要的库
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import load_iris, load_breast_cancer, load_wine
from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import classification_report, confusion_matrix, accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier, GradientBoostingClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
import time# 设置中文显示
plt.rcParams["font.family"] = ["SimHei", "WenQuanYi Micro Hei", "Heiti TC"]
sns.set(font='SimHei', font_scale=0.8)# 定义数据加载函数
def load_datasets():"""加载并返回多个数据集"""iris = load_iris()breast_cancer = load_breast_cancer()wine = load_wine()datasets = {'鸢尾花数据集': {'data': iris.data,'target': iris.target,'feature_names': iris.feature_names,'target_names': iris.target_names},'乳腺癌数据集': {'data': breast_cancer.data,'target': breast_cancer.target,'feature_names': breast_cancer.feature_names,'target_names': breast_cancer.target_names},'葡萄酒数据集': {'data': wine.data,'target': wine.target,'feature_names': wine.feature_names,'target_names': wine.target_names}}return datasets# 数据探索函数
def explore_dataset(name, dataset):"""探索数据集的基本信息"""print(f"\n===== {name} 探索 =====")print(f"样本数量: {dataset['data'].shape[0]}")print(f"特征数量: {dataset['data'].shape[1]}")print(f"类别数量: {len(np.unique(dataset['target']))}")print(f"类别分布: {pd.Series(dataset['target']).value_counts().to_dict()}")# 绘制类别分布直方图plt.figure(figsize=(8, 4))sns.countplot(x=dataset['target'])plt.title(f'{name} 类别分布')plt.xlabel('类别')plt.ylabel('样本数量')plt.xticks(ticks=range(len(dataset['target_names'])), labels=dataset['target_names'], rotation=45)plt.tight_layout()plt.show()# 绘制特征相关性热力图（如果特征数量适中）if dataset['data'].shape[1] <= 20:  # 特征太多时不绘制，避免图表过于拥挤plt.figure(figsize=(10, 8))df = pd.DataFrame(dataset['data'], columns=dataset['feature_names'])corr = df.corr()sns.heatmap(corr, annot=True, cmap='coolwarm', fmt='.2f')plt.title(f'{name} 特征相关性热力图')plt.tight_layout()plt.show()# 定义六种分类算法及其参数网格
def get_models_and_params():"""返回六种分类算法及其参数网格"""# 1. 逻辑回归log_reg = LogisticRegression(max_iter=10000, random_state=42)log_reg_param_grid = {'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100],'classifier__penalty': ['l1', 'l2', 'elasticnet', 'none'],'classifier__solver': ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']}# 2. 支持向量机svm = SVC(random_state=42)svm_param_grid = {'classifier__C': [0.001, 0.01, 0.1, 1, 10, 100],'classifier__kernel': ['linear', 'poly', 'rbf', 'sigmoid'],'classifier__gamma': ['scale', 'auto', 0.1, 1, 10]}# 3. 决策树dt = DecisionTreeClassifier(random_state=42)dt_param_grid = {'classifier__criterion': ['gini', 'entropy'],'classifier__max_depth': [None, 5, 10, 15, 20],'classifier__min_samples_split': [2, 5, 10],'classifier__min_samples_leaf': [1, 2, 4]}# 4. 随机森林rf = RandomForestClassifier(random_state=42)rf_param_grid = {'classifier__n_estimators': [50, 100, 200, 300],'classifier__max_depth': [None, 10, 20, 30],'classifier__min_samples_split': [2, 5, 10],'classifier__min_samples_leaf': [1, 2, 4],'classifier__max_features': ['auto', 'sqrt', 'log2']}# 5. K近邻knn = KNeighborsClassifier()knn_param_grid = {'classifier__n_neighbors': [3, 5, 7, 9, 11],'classifier__weights': ['uniform', 'distance'],'classifier__metric': ['euclidean', 'manhattan', 'chebyshev', 'minkowski']}# 6. 梯度提升机gbm = GradientBoostingClassifier(random_state=42)gbm_param_grid = {'classifier__n_estimators': [50, 100, 200],'classifier__learning_rate': [0.01, 0.1, 0.2],'classifier__max_depth': [3, 5, 7],'classifier__min_samples_split': [2, 5],'classifier__min_samples_leaf': [1, 2],'classifier__subsample': [0.8, 1.0]}models = [('逻辑回归', log_reg, log_reg_param_grid),('支持向量机', svm, svm_param_grid),('决策树', dt, dt_param_grid),('随机森林', rf, rf_param_grid),('K近邻', knn, knn_param_grid),('梯度提升机', gbm, gbm_param_grid)]return models# 模型训练与评估函数
def train_and_evaluate(models, X_train, X_test, y_train, y_test, dataset_name):"""训练模型并评估性能"""results = []print(f"\n===== 在 {dataset_name} 上的模型训练与评估 =====")for name, model, param_grid in models:print(f"\n----- {name} -----")# 创建包含标准化和分类器的管道pipeline = Pipeline([('scaler', StandardScaler()),  # 特征标准化('classifier', model)          # 分类器])# 记录开始时间start_time = time.time()# 创建网格搜索对象grid_search = GridSearchCV(estimator=pipeline,param_grid=param_grid,cv=5,  # 5折交叉验证scoring='accuracy',n_jobs=-1,  # 使用所有可用的CPU核心verbose=1  # 输出训练过程信息)# 执行网格搜索grid_search.fit(X_train, y_train)# 记录结束时间并计算训练时间end_time = time.time()training_time = end_time - start_timeprint(f"训练时间: {training_time:.2f}秒")# 输出最佳参数print("最佳参数:", grid_search.best_params_)# 在测试集上进行预测y_pred = grid_search.predict(X_test)# 计算准确率accuracy = accuracy_score(y_test, y_pred)print(f"测试集准确率: {accuracy:.4f}")# 输出分类报告print("\n分类报告:")report = classification_report(y_test, y_pred)print(report)# 绘制混淆矩阵plt.figure(figsize=(8, 6))cm = confusion_matrix(y_test, y_pred)sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')plt.title(f'{dataset_name} - {name} 混淆矩阵')plt.xlabel('预测类别')plt.ylabel('实际类别')plt.tight_layout()plt.show()# 保存结果results.append({'模型名称': name,'最佳参数': grid_search.best_params_,'准确率': accuracy,'训练时间': training_time,'分类报告': report})return results# 结果比较与可视化
def compare_results(dataset_name, results):"""比较不同模型的结果并可视化"""print(f"\n===== {dataset_name} 上的模型性能比较 =====")# 提取比较所需的数据model_names = [result['模型名称'] for result in results]accuracies = [result['准确率'] for result in results]training_times = [result['训练时间'] for result in results]# 创建准确率比较图表plt.figure(figsize=(10, 6))sns.barplot(x=model_names, y=accuracies)plt.title(f'{dataset_name} 各模型准确率比较')plt.xlabel('模型')plt.ylabel('准确率')plt.ylim(0, 1.0)  # 准确率范围在0到1之间plt.xticks(rotation=45)# 在柱状图上添加准确率数值for i, v in enumerate(accuracies):plt.text(i, v + 0.01, f'{v:.4f}', ha='center')plt.tight_layout()plt.show()# 创建训练时间比较图表plt.figure(figsize=(10, 6))sns.barplot(x=model_names, y=training_times)plt.title(f'{dataset_name} 各模型训练时间比较 (秒)')plt.xlabel('模型')plt.ylabel('训练时间 (秒)')plt.xticks(rotation=45)# 在柱状图上添加训练时间数值for i, v in enumerate(training_times):plt.text(i, v + 0.1, f'{v:.2f}s', ha='center')plt.tight_layout()plt.show()# 按准确率排序并显示results_sorted = sorted(results, key=lambda x: x['准确率'], reverse=True)print("\n按准确率排序的模型:")for i, result in enumerate(results_sorted, 1):print(f"{i}. {result['模型名称']}: 准确率 {result['准确率']:.4f}, 训练时间 {result['训练时间']:.2f}秒")# 主函数
def main():"""主函数，执行完整的实验流程"""# 加载数据集datasets = load_datasets()# 探索每个数据集for name, dataset in datasets.items():explore_dataset(name, dataset)# 获取模型和参数网格models = get_models_and_params()# 存储所有数据集的结果all_results = {}# 对每个数据集执行训练和评估for dataset_name, dataset in datasets.items():X, y = dataset['data'], dataset['target']# 划分训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42, stratify=y)print(f"\n{dataset_name} 划分: 训练集 {X_train.shape}, 测试集 {X_test.shape}")# 训练模型并评估results = train_and_evaluate(models, X_train, X_test, y_train, y_test, dataset_name)# 比较结果compare_results(dataset_name, results)# 保存结果all_results[dataset_name] = results# 跨数据集比较最佳模型print("\n===== 跨数据集的最佳模型比较 =====")best_models = []for dataset_name, results in all_results.items():best_model = max(results, key=lambda x: x['准确率'])best_models.append({'数据集': dataset_name,'最佳模型': best_model['模型名称'],'准确率': best_model['准确率'],'训练时间': best_model['训练时间']})print(f"{dataset_name}: 最佳模型是 {best_model['模型名称']}, 准确率 {best_model['准确率']:.4f}")# 创建跨数据集比较图表plt.figure(figsize=(12, 6))df_best = pd.DataFrame(best_models)sns.barplot(x='数据集', y='准确率', hue='最佳模型', data=df_best)plt.title('各数据集上最佳模型的准确率比较')plt.xlabel('数据集')plt.ylabel('准确率')plt.ylim(0, 1.0)plt.xticks(rotation=45)plt.tight_layout()plt.show()print("\n===== 实验总结 =====")print("1. 不同算法在不同数据集上的表现存在差异，没有一种算法在所有场景下都表现最佳")print("2. 集成学习算法（随机森林、梯度提升机）在大多数情况下表现较好，但训练时间较长")print("3. 简单算法（如逻辑回归、K近邻）训练速度快，在某些数据集上也能取得不错的效果")print("4. 参数调优对模型性能有显著影响，网格搜索是一种有效的参数优化方法")# 执行主函数
if __name__ == "__main__":main()

机器学习分类算法与网格搜索完整代码

创建时间：22:15

5.2 代码解析

上述代码实现了一个完整的机器学习实验流程，主要包含以下几个部分：

库导入：导入实验所需的所有库，包括数据处理、模型训练、参数优化和结果可视化等。
数据加载与探索：
- load_datasets()函数加载三个经典数据集
- explore_dataset()函数对每个数据集进行基本探索，包括样本数量、特征数量、类别分布等，并绘制类别分布直方图和特征相关性热力图
模型与参数网格定义：
- get_models_and_params()函数定义了六种分类算法及其对应的参数网格
- 每种算法都设置了合理的参数候选值，覆盖了影响模型性能的关键参数
模型训练与评估：
- train_and_evaluate()函数实现了完整的模型训练和评估流程
- 使用 Pipeline 将特征标准化和模型训练结合起来，确保数据预处理的一致性
- 使用 GridSearchCV 进行参数优化，结合 5 折交叉验证评估模型性能
- 输出最佳参数、准确率、分类报告，并绘制混淆矩阵
结果比较与可视化：
- compare_results()函数对不同模型的性能进行比较，包括准确率和训练时间
- 绘制柱状图直观展示各模型的性能差异
- 按准确率对模型进行排序
主函数：
- 协调各个模块的执行，实现完整的实验流程
- 对所有数据集的最佳模型进行跨数据集比较
- 总结实验发现

5.3 实验参数设置说明

在实验中，我们设置了以下关键参数：

数据集划分：训练集占 70%，测试集占 30%，使用stratify=y确保训练集和测试集中的类别分布与原始数据集一致。
交叉验证：采用 5 折交叉验证，在参数搜索过程中更可靠地评估模型性能。
特征预处理：使用StandardScaler对特征进行标准化处理，使每个特征的均值为 0，标准差为 1，这对逻辑回归、SVM、KNN 等算法尤为重要。
网格搜索参数：每种算法的参数网格都经过精心设计，涵盖了影响模型性能的关键参数，同时避免了过大的参数空间导致计算量激增。
评价指标：主要使用准确率作为网格搜索的评价指标，同时在分类报告中提供精确率、召回率和 F1 分数等更全面的评价指标。

6. 实验结果对比与分析

6.1 鸢尾花数据集结果分析

鸢尾花数据集是一个经典的多类别分类问题，包含 3 种鸢尾花的 4 个特征数据，共 150 个样本。

各模型性能表现：

随机森林和梯度提升机通常能达到 100% 的准确率，完美区分三种鸢尾花
逻辑回归、SVM 和 KNN 也能达到 95% 以上的高准确率
决策树的表现稍差，但也能达到 90% 左右的准确率

原因分析：
鸢尾花数据集特征明显，类别间区分度高，样本分布均衡，因此大多数算法都能取得较好的效果。集成学习算法（随机森林、梯度提升机）由于能够综合多个模型的优势，表现尤为突出。

最佳参数特点：

随机森林：通常选择较多的决策树（n_estimators=200 或 300），不限制最大深度（max_depth=None）
SVM：多采用 RBF 核函数，正则化参数 C 通常在 1 到 10 之间
逻辑回归：较小的正则化参数（C=1 或 10），采用 l2 正则化

6.2 乳腺癌数据集结果分析

乳腺癌数据集是一个二分类问题，包含 569 个样本，30 个特征，用于判断肿瘤是良性还是恶性。

各模型性能表现：

梯度提升机和随机森林表现最佳，准确率通常在 97% 以上
SVM 和逻辑回归也能达到 96% 左右的准确率
KNN 和决策树表现稍差，但准确率也能达到 94% 以上

原因分析：
乳腺癌数据集样本数量适中，特征较多，存在一定的非线性关系。梯度提升机能够捕捉复杂的非线性关系，因此表现最佳。SVM 通过核函数也能较好地处理非线性问题。

最佳参数特点：

梯度提升机：通常选择 100-200 个弱学习器（n_estimators=100 或 200），学习率在 0.1 左右，最大深度为 3-5
随机森林：较多的决策树（n_estimators=200 或 300），最大特征数采用默认的 "auto"
SVM：多采用 RBF 核函数，gamma 参数通常为 "scale" 或 0.1

6.3 葡萄酒数据集结果分析

葡萄酒数据集是一个多类别分类问题，包含 178 个样本，13 个特征，用于区分 3 种不同的葡萄酒。

各模型性能表现：

随机森林、梯度提升机和 SVM 表现最佳，准确率通常在 98% 以上
逻辑回归和 KNN 也能达到 95% 以上的准确率
决策树表现相对较差，但准确率也能达到 90% 左右

原因分析：
葡萄酒数据集特征具有较强的区分性，不同类别的葡萄酒在化学成分上有明显差异。集成学习算法和 SVM 能够充分利用这些特征差异进行分类。

最佳参数特点：

SVM：多采用 RBF 核函数或线性核函数，正则化参数 C 通常在 1 到 10 之间
随机森林：中等数量的决策树（n_estimators=100 或 200），不限制最大深度
梯度提升机：较少的弱学习器（n_estimators=100），学习率 0.1，最大深度 3-5

6.4 跨数据集模型性能综合比较

综合三个数据集的实验结果，我们可以得出以下结论：

算法性能排名：
梯度提升机 > 随机森林 > SVM > 逻辑回归 > KNN > 决策树
集成学习算法（梯度提升机、随机森林）在大多数情况下表现最佳，这得益于它们能够综合多个弱学习器的优势，降低过拟合风险。
训练时间对比：
决策树 < 逻辑回归 < KNN < SVM < 随机森林 < 梯度提升机
集成学习算法虽然性能优异，但需要训练多个模型，因此训练时间较长。简单算法如决策树、逻辑回归训练速度快，适合对实时性要求高的场景。
参数敏感性：
SVM 和梯度提升机对参数较为敏感，不同的参数设置可能导致性能差异较大
随机森林对参数相对不敏感，在较宽的参数范围内都能保持较好的性能
决策树和逻辑回归的参数调优空间相对较小
适用性分析：
对于特征维度高、非线性关系强的数据集，梯度提升机和随机森林表现更优
对于小样本数据集，SVM 往往能取得较好的效果
对于需要快速训练和部署的场景，逻辑回归和决策树是更好的选择