当前位置: 首页 > ai >正文

【动手学深度学习】1.3. 各种机器学习问题


目录

    • 1.3. 各种机器学习问题
      • 1)监督学习(supervisedlearning)
        • (1)回归(regression)
        • (2)分类(classification)
        • (3)标记问题
        • (4)搜索
        • (5)推荐系统(recommender system)
        • (6)序列学习
      • 2)无监督学习
      • 3)与环境互动
      • 4)强化学习


1.3. 各种机器学习问题

1)监督学习(supervisedlearning)

监督学习(supervised learning):

  • 擅长在“给定输入特征”的情况下预测标签。

  • 每个“特征-标签”对都称为一个样本(example)。

  • 我们的目标是生成一个模型,能够将任何输入特征映射到标签(即预测)。

监督学习过程

  • 获取训练数据集:数据样本+标签。有时样本已有标签;有时样本需要被人工标记;

  • 生成模型:有监督学习算法+训练数据集=“已完成学习的模型”;

  • 预测标签:将没有见过的样本特征放到“已完成学习的模型”中,使用模型的输出作为相应标签的预测。

图1.3.1 监督学习:

在这里插入图片描述

(1)回归(regression)

回归(regression)是监督学习任务之一。

"回归"指的是通过建立输入变量(自变量)与输出结果(因变量)之间的数学关系模型,来预测一个具体的数值结果。简单来说,它就像用一条线或曲线来“拟合”数据点,从而根据已知因素推测未知数值。

(2)分类(classification)

分类(classification)问题:希望模型能够预测样本属于哪个类别(category,正式称为(class))。

  • 二项分类(binomial classification):只有两个种类;

  • 多项分类(multiclass classification):有多个种类;

  • 层次分类(hierarchical classification):层次结构假定在许多类之间存在某种关系。

(3)标记问题

学习预测不相互排斥的类别的问题称为多标签分类(multi-label classification)。

举个例子,一篇典型的文章可能会用5~10个标签。

(4)搜索

在信息检索领域,我们希望对一组项目进行排序。搜索结果的排序也十分重要,学习算法需要输出有序的元素子集。

该问题一种解决方案:先为集合每个元素分配相应的相关性分数,然后检索评级最高的元素。

(5)推荐系统(recommender system)

推荐系统(recommender system),它的目标是向特定用户进行“个性化”推荐。

(6)序列学习

序列学习是处理输入或输出是可变长度序列的机器学习方法,要求模型能“记住”历史信息来处理前后关联的任务。与传统模型(固定输入输出,如图像分类)不同。

序列学习几种典型的特殊情况:

  • 标记和解析 :是对文本序列进行注释,输入和输出数量基本相同,例如标注出句子中的命名实体等。

  • 自动语音识别 :输入是音频录音,输出是对应的文本记录,音频帧数远多于文本字符数,属于输出比输入短得多的序列到序列学习。

  • 文本到语音 :与自动语音识别相反,输入是文本,输出是音频文件,输出比输入长很多。

  • 机器翻译 :输入和输出的顺序及数量通常都不相同,像德语和英语间的翻译,存在词序调整等情况。

此外,序列学习还在确定用户阅读网页顺序、对话问题等众多其他学习任务中有应用,是当前热门的研究领域。

.

2)无监督学习

无监督学习(unsupervised learning):处理无标签数据,旨在自主发现数据内在模式或结构,无需明确的“目标”指导。

数据中不含有“目标”的机器学习问题通常被为无监督学习(unsupervised learning);

无监督学习可以回答什么样的问题呢?

  • 聚类(clustering)问题:没有标签的情况下,我们是否能给数据分类呢?比如,给定一组用户的网页浏览记录,我们能否将具有相似行为的用户聚类呢?

  • 主成分分析(principal component analysis)问题:我们能否找到少量的参数来准确地捕捉数据的线性相关属性?比如,一个球的运动轨迹可以用球的速度、直径和质量来描述。

  • 因果关系(causality)和概率图模型(probabilistic graphical models)问题:我们能否描述观察到的许多数据的根本原因?例如,如果我们有关于房价、污染、犯罪、地理位置、教育和工资的人口统计数据,我们能否简单地根据经验数据发现它们之间的关系?

  • 生成对抗性网络(generative adversarial networks):目标是,合成与真实数据分布一致的复杂数据(如图像、音频)。**机制,**通过生成器与判别器的对抗训练,使生成数据难以被区分真伪。

.

3)与环境互动

传统的监督学习和无监督学习通常属于离线学习(offline learning),即先收集大量数据,然后在与环境断开的情况下进行学习。

离线学习的优点是可以在孤立的环境中进行模式识别,但其应用范围有限。

与环境互动的学习模式推动机器学习从静态预测迈向动态决策,解决更复杂的现实问题,但需应对环境反馈、动态变化及策略影响等挑战。

图1.3.6 从环境中为监督学习收集数据。

在这里插入图片描述

.

4)强化学习

强化学习(Reinforcement Learning, RL)关注智能体(agent)通过与环境的动态交互学习最优决策策略,核心特点如下:

Agent交互循环:智能体在时间序列中持续与环境互动,循环流程为:

  • 观察(Observation):接收环境状态信息(如游戏画面)。

  • 行动(Action):根据策略选择动作(如移动角色)。

  • 奖励(Reward):环境反馈即时收益(如得分增减)。

图1.3.7 强化学习和环境之间的相互作用

在这里插入图片描述

强化学习的目标是产生一个好的策略(policy)。 强化学习智能体选择的“动作”受策略控制,即一个从环境观察映射到行动的功能。

当环境可被完全观察到时,强化学习问题被称为马尔可夫决策过程(markov decision process)。 当状态不依赖于之前的操作时,我们称该问题为上下文赌博机(contextual bandit problem)。 当没有状态,只有一组最初未知回报的可用动作时,这个问题就是经典的多臂赌博机(multi-armed bandit problem)。

.


声明:资源可能存在第三方来源,若有侵权请联系删除!

http://www.xdnf.cn/news/7816.html

相关文章:

  • spring的注入方式都有什么区别
  • 网页表格转换为markdown
  • 仅修改文件名会导致文件的MD5值发生变化吗?
  • 制造业ERP系统选型与实施避坑探讨
  • java加强 -网络编程
  • iframe加载或者切换时候,短暂的白屏频闪问题解决
  • Oracle Enqueue Names
  • MySQL中的重要常见知识点(入门到入土!)
  • QT中信号和事件的区别
  • Panasonic松下焊接机器人节气
  • Web3 领域中的一些专业术语
  • Nginx负载均衡配置详解
  • 14、自动配置【源码分析】-初始加载自动配置类
  • 双活数据中心解决方案
  • KubeVirt虚拟机热迁移
  • 第六章 Freertos智能小车循迹模块
  • 【Oracle 专栏】清理用户及表空间
  • STM32 I2C硬件读写
  • MLXJAX框架学习
  • 时源TS4RPSA2-3-3导电硅胶
  • 【已解决】docker search --limit 1 centos Error response from daemon
  • React中使用 Ant Design Charts 图表
  • 31-35【动手学深度学习】深度学习硬件
  • Spark Core 源码关键环节的深度解析
  • [Vue]跨组件传值
  • PCB 横截面几何形状
  • 几种超声波芯片的特点和对比
  • 【东枫科技】usrp rfnoc 开发环境搭建
  • 学习python day4
  • 101个α因子#11