当前位置：首页 > ds >正文

机器学习：开启智能时代的大门

ds 2025/7/3 21:08:35

一、引言

机器学习（Machine Learning）正成为人工智能的核心技术。从 Netflix 推荐电影，到银行识别欺诈交易，机器学习正在逐渐改变世界。本篇文章将从理论到实操全面介绍机器学习的基础概念，并附有代码和案例。

二、什么是机器学习？

机器学习是计算机基于数据经验自动改进性能的技术。它不再依赖人类预定义的规则，而是从数据中发现规律。

通俗例子：

传统编程：规则 + 数据 → 输出
机器学习：数据 + 输出 → 规则（模型）

三、机器学习的三种基本类型

1. 监督学习（Supervised Learning）

特征：训练数据包含输入+对应输出（标签）
数学模型示例：线性回归

数学原理

目标是拟合一个线性函数：

$y = w^T x + b$

损失函数（均方误差）：

$L(w, b) = \frac{1}{n} \sum_{i=1}^{n}(y_i - (w^T x_i + b))^2$

优化方法：使用梯度下降迭代更新参数以最小化损失函数。

Python代码示例（线性回归）

from sklearn.linear_model import LinearRegression
import numpy as np# 数据
X = np.array([[1], [2], [3], [4], [5]])
y = np.array([2, 4, 6, 8, 10])# 训练模型
model = LinearRegression()
model.fit(X, y)# 预测
print("预测结果：", model.predict([[6]]))  # 应输出 12

2. 无监督学习（Unsupervised Learning）

特征：训练数据没有标签
应用：数据聚类、异常检测、特征降维

数学模型示例：K-Means 聚类

目标是将数据点划分为 KKK 个簇，使得每个点距离最近的簇中心。

目标函数： $\sum_{i=1}^{k} \sum_{x_j \in C_i} \|x_j - \mu_i\|^2$

其中，μi\mu_iμi 是簇 CiC_iCi 的质心。

Python代码示例（K-Means）

from sklearn.cluster import KMeans
import numpy as npX = np.array([[1,2], [1,4], [1,0], [10,2], [10,4], [10,0]])
kmeans = KMeans(n_clusters=2, random_state=0).fit(X)print("簇中心：", kmeans.cluster_centers_)
print("每个样本的簇标签：", kmeans.labels_)

3. 强化学习（Reinforcement Learning）

特征：智能体与环境交互，通过奖励学习策略
应用：围棋AI（AlphaGo）、机器人控制、自动交易

数学原理：马尔可夫决策过程（MDP）

目标： $\max_\pi \mathbb{E}\left[ \sum_{t=0}^{\infty} \gamma^t R_t \right]$

其中：

π：策略
γ：折扣因子
Rt：第 t 步的奖励

应用案例：Q-learning（表格版）

# 简化版 Q-learning 示例
import numpy as npQ = np.zeros((5, 5))  # 假设状态空间和动作空间大小为5
alpha = 0.1  # 学习率
gamma = 0.9  # 折扣率
state = 0
for _ in range(100):  # 简化循环action = np.argmax(Q[state])  # 当前策略next_state = (state + action) % 5reward = 1 if next_state == 4 else 0Q[state, action] += alpha * (reward + gamma * np.max(Q[next_state]) - Q[state, action])state = next_state
print("Q表：", Q)

四、实际应用案例

1. 图像识别（使用卷积神经网络 CNN）

应用：人脸识别、自动驾驶车道检测
工具：TensorFlow / PyTorch

2. 医疗诊断预测

用 Logistic 回归预测癌症是否恶性
数据集：UCI 的乳腺癌数据集

from sklearn.datasets import load_breast_cancer
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_splitX, y = load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)model = LogisticRegression(max_iter=10000)
model.fit(X_train, y_train)
print("模型准确率：", model.score(X_test, y_test))