当前位置：首页 > backend >正文

特征工程概述

backend 2025/7/1 10:41:42

特征工程是机器学习中至关重要的一环。

它是指将原始数据转换为更能代表问题本质的特征的过程。

一般使用pandas来进行数据清洗和数据处理、使用sklearn来进行特征工程。

好的特征可以显著提高模型性能，甚至比选择算法本身更重要。

特征工程的主要组成部分

1. 特征提取

目的：从原始数据中提取有意义的特征
常见方法：
- 文本数据：词袋模型、TF-IDF、词嵌入
- 图像数据：边缘检测、颜色直方图、SIFT特征
- 时间序列：滑动窗口统计、傅里叶变换

2. 特征选择

目的：从已有特征中选择最有价值的子集
常用方法：
- 过滤法：方差阈值、卡方检验、互信息
- 包装法：递归特征消除
- 嵌入法：L1正则化、树模型的特征重要性

3. 特征构造

目的：创建新的更有意义的特征
示例：
- 从日期中提取星期几、是否周末
- 组合多个特征（如长×宽=面积）
- 分箱/离散化连续特征

4. 特征变换（无量纲化：数据预处理）

目的：改变特征的表示形式
常用技术：
- 标准化/归一化（MinMaxScaler, StandardScaler）
- 对数/幂变换
- PCA等降维方法

特征工程API

实例化转换器对象，转换器类有很多，都是Transformer的子类, 常用的子类有:

DictVectorizer      字典特征提取
CountVectorizer     文本特征提取
TfidfVectorizer     TF-IDF文本特征词的重要程度特征提取 
MinMaxScaler        归一化
StandardScaler      标准化
VarianceThreshold   底方差过滤降维
PCA                 主成分分析降维

转换器对象调用fit_transform()进行转换, 其中fit用于计算数据，transform进行最终转换
fit_transform()可以使用fit()和transform()代替
```
data_new = transfer.fit_transform(data)
可写成
transfer.fit(data)
data_new = transfer.transform(data)
```

特征工程实践示例

数值特征处理

from sklearn.preprocessing import StandardScaler, MinMaxScaler# 标准化（均值0，方差1）
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)# 归一化（缩放到[0,1]范围）
minmax = MinMaxScaler()
X_normalized = minmax.fit_transform(X)

类别特征编码

from sklearn.preprocessing import OneHotEncoder, LabelEncoder# 标签编码
label_encoder = LabelEncoder()
y_encoded = label_encoder.fit_transform(y)# 独热编码
onehot = OneHotEncoder()
X_onehot = onehot.fit_transform(X_categorical)

文本特征提取

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer# 词袋模型
count_vec = CountVectorizer()
X_count = count_vec.fit_transform(text_data)# TF-IDF
tfidf = TfidfVectorizer()
X_tfidf = tfidf.fit_transform(text_data)