当前位置: 首页 > web >正文

机器学习第十二讲:特征选择 → 选最重要的考试科目做录取判断

机器学习第十二讲:特征选择 → 选最重要的考试科目做录取判断

资料取自《零基础学机器学习》。
查看总目录:学习大纲

关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:超详细手把手指南


一、学霸选科法则 📚(特征选择基础逻辑,材料2的3.章节2-3

比喻:某大学要从200科成绩中选出关键指标:

全科成绩
数学/语文超强相关性
地理成绩波动大
体育课异常值多
选主科为特征
删除无效特征
清洗噪声数据

通过计算发现:数学与录取结果相关系数0.85(强相关),书法课仅0.07(可忽略)[2]


二、教务主任三把尺 📏(特征选择方法,材料2+6综合[2-3][6-4.6.2]

  1. 相关性筛选 → 用成绩关联表

    科目与录取的相关系数
    数学▶▶▶ 0.92
    语文▶▶ 0.78
    生物▶ 0.32
    保留前30%高关联科目(材料6的4.6.2优化思路)[6-4.6.2]
  2. 决策树评估 → 看科目权重

    45% 30% 20% 5% 各科目信息增益值 数学 语文 英语 美术

    美术科信息增益≤5%可剔除(材料2的特征工程原则)2-3

  3. 主成分萃取 → 提炼超级科目
    数学→逻辑能力因子
    语文→理解能力因子
    合并相关科目降维(类似材料6的MNIST像素压缩)[6-4载入MNIST数据集]


三、典型陷阱警示 ⚠️(材料4的过拟合问题[4-4.6.2]

某中学过分关注奥林匹克竞赛得分导致:

只录金牌学生
训练集准确率98%
实际录取频繁误判

这就是典型的过拟合(材料4的过拟合图示)[4-4.6.2],需平衡特征数量


四、招生办实操手册 📋(材料5混淆矩阵应用[5]

经过特征选择后的录取模型验证:

from sklearn.feature_selection import SelectKBest
from sklearn.metrics import confusion_matrix# 选择数学语文两科(k=2)
selector = SelectKBest(k=2) 
X_new = selector.fit_transform(X_scores, y_admission)# 混淆矩阵显示效果提升
print(confusion_matrix(y_true, y_pred))
"""
标准化前:[[70 30][25 75]] 
精选后: [[85 15][10 90]]
"""

准确率从72.5%→87.5%(材料5的评估方法)[5]


五、知识验证小测试 ✅

Q: 某模型用身高+星座预测成绩是否合理?
A: ❌ 星座属于无关特征应删除(材料2的特征提取原则)2-3


目录:总目录
上篇文章:机器学习第十一讲:标准化 → 把厘米和公斤单位统一成标准值
下篇文章:机器学习第十三讲:独热编码 → 把红黄蓝颜色变成001等的数字格式


[4-4.6.2]: 过拟合现象与平衡原则(4.6.2 欠拟合和过拟合)
[5]: 模型效果评估工具(混淆矩阵应用章节)
[6-4载入MNIST数据集]: 数据降维处理范例(MNIST数据处理流程)

http://www.xdnf.cn/news/6396.html

相关文章:

  • React 第四十二节 Router 中useLoaderData的用途详解
  • 【常用算法:排序篇】7.算法魔法与面试秘籍:从趣味排序到实战通关
  • 架空防静电地板材质全解析:选对材质,守护精密空间的“安全卫士”
  • 常用的关系性统计方法
  • 【物联网】基于树莓派的物联网开发【4】——WIFI+SSH远程登录树莓派
  • 2505C++,py和go调用雅兰亭库的协程工具
  • 2025年渗透测试面试题总结-阿里云[实习]阿里云安全-安全工程师(题目+回答)
  • 2025认证杯第二阶段数学建模B题:谣言在社交网络上的传播思路+模型+代码
  • 贝叶斯优化Transformer融合支持向量机多变量回归预测,附相关性气泡图、散点密度图,Matlab实现
  • 【Python 正则表达式】
  • PostgreSQL 联合索引生效条件
  • 揭秘LLM:矩阵运算揭秘LLM单词生成机制
  • C++11多线程thread、原子变量
  • Kafka 中过多的 topic 导致整体上性能变慢的原因
  • Spark--RDD中的转换算子
  • Node.js
  • Miniconda介绍介绍和使用
  • Web3.0:互联网的去中心化未来
  • FPGA: UltraScale+ bitslip实现(ISERDESE3)
  • 记一次bug排查(.exe链接mysql失败)-每天学习一点点
  • (5)python开发经验
  • 组合问题(去重)
  • C++23 新增的查找算法详解:ranges::find_last 系列函数
  • uniapp微信小程序-长按按钮百度语音识别回显文字
  • 印度Rummy游戏支付通道申请策略:技巧类游戏的合规与创新
  • 从零开始学习three.js(18):一文详解three.js中的着色器Shader
  • Spring MVC HttpMessageConverter 的作用是什么?
  • 区块链blog1__合作与信任
  • 电池组PACK自动化生产线:多领域电池生产的“智能引擎”
  • 【美团】后端一面复盘|项目驱动 + 手撕 + JVM + 数据库全面覆盖