当前位置: 首页 > news >正文

8.15 机器学习(2)K最近邻算法

一、算法核心思想

1、定义:K 近邻(K-Nearest Neighbor, KNN)用最近的 K 个已知样本代表/决定未知样本的类别

2、步骤:
① 计算未知点到所有已知点的距离,
② 按距离升序排序,
③ 选前 K 个(K ≤ 20),
④ 统计这 K 个邻居中类别出现频率,
⑤ 将频率最高的类别作为预测结果,

二、距离度量

  1. 欧式距离(Euclidean)
    多维空间两点直线距离:
    d = √Σ(xi – yi)²

  2. 曼哈顿距离(Manhattan)
    各维度绝对值之和:
    d = Σ|xi – yi|

三、鸢尾花数据集练习(为分类问题)

将鸢尾花数据集导入库,生成数据

from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
import numpy as np# 设置随机种子,保证结果可复现
np.random.seed(0)
#加载鸢尾花数据集
iris=datasets.load_iris()
iris

分三类

将他们分类、增加特征、类别名

最终KNN邻近值选取并验证

四、自己新找一个数据集

练习:导入葡萄酒数据集(为分类问题)

#导入葡萄酒数据集
wine = datasets.load_wine()
wine

加载前十行数据wine.data[:10] 葡萄酒的特征值

给他分类标签并标明特征和类别。

训练和测试X和Y 

预测X和Y的值,选择最优K值交叉验证,标明范围。最后画图

K 值选择、距离度量方式决定模型效果。

适用小规模、低维、类别边界不规则的数据。

http://www.xdnf.cn/news/1304299.html

相关文章:

  • k8s注意事项
  • Nginx反向代理Tomcat实战指南
  • 8月4日实训考察:重庆五一职院走进成都国际影像产业园
  • PCA降维 提升模型训练效率
  • 【科研绘图系列】R语言绘制多种饼图
  • nVidia Tesla P40使用anaconda本地重编译pytorch3d成功加载ComfyUI-3D-Pack
  • 前端动画库之gsap
  • 深入解析五大通信协议:TCP、UDP、HTTP_HTTPS、WebSocket与GRPC
  • Al大模型-本地私有化部署大模型-大模型微调
  • 腾讯位置商业授权微信小程序逆地址解析(坐标位置描述)
  • day29-进程和线程(2)
  • C语言:指针(5)
  • lcm通信库介绍与使用指南
  • 使用Docker容器化Python测试Pytest项目并配置GitHub Actions CI/CD流程
  • Pytest项目_day16(yaml和parametrize结合)
  • week1-[循环嵌套]蛇
  • Vue2与Vue3生命周期函数全面解析:从入门到精通
  • Linux操作系统--多线程(锁、线程同步)
  • 基本电子元件:贴片电阻器的种类
  • 达梦数据库使用控制台disql执行脚本
  • Mac(二)Homebrew 的安装和使用
  • HDFS数据倾斜导致MapReduce作业失败的排查与优化实践
  • 一个集成多源威胁情报的聚合平台,提供实时威胁情报查询和播报服务、主动拦截威胁IP,集成AI等多项常用安全类工具
  • mac 通过homebrew 安装和使用nvm
  • 16进制pcm数据转py波形脚本
  • 超越模型中心:AI智能体(Agent)革命来临,AgenticOps将如何颠覆你的工作流?
  • Java-JVM是什么JVM的类加载机制
  • PAT 1064 Complete Binary Search Tree
  • 计算机网络:(十五)TCP拥塞控制与TCP拥塞控制算法
  • 【161页PPT】智慧方案企业数字化转型概述(课件)(附下载方式)