当前位置: 首页 > ai >正文

机器学习的工作流程

🌟 欢迎来到AI奇妙世界! 🌟

亲爱的开发者朋友们,大家好!👋

我是人工智能领域的探索者与分享者,很高兴在CSDN与你们相遇!🎉 在这里,我将持续输出AI前沿技术、实战案例、算法解析等内容,希望能和大家一起学习、交流、成长!💡

🔥 为什么关注AI?

人工智能正在重塑世界!🌍

🚀 深度学习让机器拥有“视觉”“听觉”
🤖 **大模型(如GPT、文心一言)**改变人机交互方式
📊 数据科学赋能商业决策
🏥 AI医疗助力精准诊断
🛒 智能推荐优化用户体验
无论你是AI新手👶,还是资深极客👨💻,这里都有适合你的内容!

📌 你将在这里看到什么?

✅ AI基础入门(Python、TensorFlow/PyTorch)
✅ 实战项目(图像识别、NLP、推荐系统)
✅ 论文解读(CVPR、NeurIPS最新研究)
✅ 行业动态(AI政策、大模型进展)
✅ 避坑指南(训练技巧、调参经验)

💬 期待与你互动!

📢 评论区随时交流,欢迎提问!
💌 私信开放,一起探讨技术难题!
🤝 关注我,AI学习路上不迷路!

最后,送上一句AI圈的经典名言:

“人工智能不会取代人类,但会用AI的人会取代不用AI的人。”

让我们一起拥抱AI时代,用代码改变未来!🚀

点击关注👉,开启AI之旅! 🔥🔥🔥

目录

一.什么是机器学习

二.机器学习的工作流程

三.解释上述流程的各步骤

1.获取数据

①获取到的数据种类

②数据中的名词

③数据类型的构成

④数据分割

2.数据基本处理

3.特征工程

①什么是特征工程?

②为什么需要特征工程?

③特征工程包含的内容(了解)

特征提取

特征预处理

特征降维

4.机器学习(模型训练)

5.模型评估

小结


一.什么是机器学习

机器学习是从数据自动分析获得模型,并利用模型对未知数据进行预测。

 简单来说,计算机通过对新的数据进行分析,获得一个模型,通过这个模型,计算机就可以预测未知属性

二.机器学习的工作流程

机器学习工作流程总结: 

  1. 获取数据
  2. 数据基本处理
  3. 特征工程
  4. 机器学习(模型训练)
  5. 模型评估:①结果达到要求,则上线服务 / ②结果没达到要求,则重复上面的步骤

三.解释上述流程的各步骤

1.获取数据

①获取到的数据种类

  • 房屋价格:可能是小数,如105.5万

  • 电影数据:动作片/喜剧片等等

  • 人物分类:可以按是否戴帽子 / 手里是否拿东西等等,来进行分类,没有对错之分,只是分类角度不同

②数据中的名词

在数据集中一般:

  • 一行数据我们称为一个样本

  • 一列数据我们称为一个特征

  • 需要我们判断的列(如上图的电影类型),我们称为目标值
  • 有些数据有目标值,有些数据没有目标值

如下图,有的行就没有电影类型,有的就有。

③数据类型的构成

  • 数据类型一:特征值+目标值(目标值是连续的和离散的)
  • 数据类型二:只有特征值,没有目标值

④数据分割

  • 机器学习一般的数据集会分成两部分
    • 训练数据:用于训练,构建模型
    • 测试数据:在模型检验时使用,用于评估模型是否有效
  • 划分比例:
    • 训练集:70% ~ 80%
    • 测试集:30% ~ 20%

2.数据基本处理

        对数据进行缺失值、去除异常值等处理。

        举例:比如我们让一群人填写问卷调查,肯定有人会有部分项不填写(缺失值),或者年龄填写1000岁(异常值),这两种情况就需要进行处理。

3.特征工程

①什么是特征工程?

        特征工程是使用专业背景知识和技巧,对数据进行处理,使得特征能在机器学习算法上发挥更好的作用

        意义:会直接影响机器学习的效果。

        简单理解就是,进一步对数据进行处理。

        因为工程一般都很重要(比如盖楼工程),所以就表示提取数据的特征是一件很重要的事,因此叫做特征工程。

②为什么需要特征工程?

③特征工程包含的内容(了解)

  • 特征提取

将任意数据(如文本或图像),转换为可用于机器学习的数字特征。

  • 特征预处理

通过一些转换函数将特征数据转换成更加适合算法模型的特征数据过程。

  • 特征降维

指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程。

4.机器学习(模型训练)

单独讲,请见该合集中的【机器学习算法分类介绍】文章。

5.模型评估

单独讲,请见该合集中的【模型评估】文章。

小结

以上就是本篇文章的全部内容,喜欢的话可以留个免费的关注呦~~~

 

http://www.xdnf.cn/news/16287.html

相关文章:

  • Windows 平台源码部署 Dify教程(不依赖 Docker)
  • 手写PPO_clip(FrozenLake环境)
  • 【LeetCode 热题 100】79. 单词搜索——回溯
  • 电子电气架构 --- 车载软件交样评审流程
  • Java面试题及详细答案120道之(041-060)
  • 排序算法,咕咕咕
  • 进制定义与转换详解
  • vcpkg如何交叉编译
  • HCLP--MGER综合实验
  • 数据结构习题--删除排序数组中的重复项
  • 详解力扣高频SQL50题之1084. 销售分析 III【简单】
  • Python点阵字生成与优化:从基础实现到高级渲染技术
  • 数据恢复与备份
  • 快速入门Linux操作系统(一)
  • 立式加工中心X-Y轴传动机械结构设“cad【6张】三维图+设计说明书
  • 进阶数据结构:用红黑树实现封装map和set
  • 学习嵌入式的第三十一天-数据结构-(2025.7.23)网络协议封装
  • 数据中心-时序数据库InfluxDB
  • 掌握Gemini-2.5:现代AI开发中实用应用的综合指南
  • 二次函数图像动画展示
  • 在Power Automate Desktop中执行PowerShell获取SharePoint online某个文件夹的用户权限列表
  • excel删除重复项场景
  • 算法竞赛阶段二-数据结构(35)数据结构单链表模拟实现
  • Node.js 模拟 Linux 环境
  • 【每天一个知识点】GAN(生成对抗网络,Generative Adversarial Network)
  • Whisper语音转文字
  • 【洛谷】单向链表、队列安排、约瑟夫问题(list相关算法题)
  • 互联网应用主流框架整合 Spring Boot开发
  • Linux DNS 服务器正反向解析
  • 【IMMCKF】基于容积卡尔曼滤波(CKF)的多模型交互的定位程序,模型为CV和CT,三维环境,matlab代码|附下载链接