当前位置: 首页 > ai >正文

【强化学习】什么是强化学习?2025

1. 强化学习简介

一句话总结:强化学习(Reinforcement Learning, RL)是一种机器学习范式,强调智能体(agent)通过与环境(environment)的交互,以试错(trial‑and‑error)的方式学习一套策略(policy),以最大化累积奖励(cumulative reward)。

在这里插入图片描述

1.1. 基本组成:智能体与环境

  • 智能体(Agent):能够感知环境状态并执行动作的主体。
  • 环境(Environment):智能体所处的外部系统,会根据智能体的动作返回新的状态和奖励信号。

1.2. 关键要素

  • 奖励(Reward):环境对智能体动作的反馈,可正可负,指导智能体区分好坏行为。
  • 策略(Policy):智能体决定在某状态下选择何种动作的概率分布。可以是确定性的,也可以是随机的。
  • 值函数(Value Function):用于评估在某一状态(或状态—动作对)下,后续可能获得的累积奖励。

1.3. 与其他学习范式的区别

  • 监督学习:需要大量标注的输入–输出样本;强化学习仅需奖励信号,不需标签。
  • 无监督学习:关注数据结构与分布;强化学习关注通过交互获取反馈并优化决策。

1.4. 强化学习的应用

应用领域具体示例
游戏 AIDeepMind 的 AlphaGo、OpenAI Five 在 Dota 2 中的表现
机器人控制Figure 02 的仿真训练步态、Google 机器人手臂开门实例
自动驾驶基于卷积神经网络的自动驾驶汽车感知与决策、静态环境下车辆轨迹预测
金融交易与投资算法交易、投资组合优化与风险管理
医疗健康动态治疗方案推荐(如癌症放疗和脓毒症治疗)
自然语言处理对话系统优化、文本摘要与机器翻译
营销与广告实时竞价与广告位优化、个性化推荐广告
能源管理电网负荷优化与微电网控制
推荐系统新闻推荐与内容个性化推荐
交通信号控制多交叉口交通信号协调优化

2. 专业名词解释

专业名词解释
智能体 (Agent)在环境中执行动作、接收状态和奖励,并根据策略不断学习和决策的主体。
环境 (Environment)智能体所处的外部系统或仿真场景,定义了状态空间、动作空间以及奖励机制。
状态 (State)环境在某一时刻的描述,通常由一组变量或观测组成,表示智能体可观测的信息。
动作 (Action)智能体在某一状态下可执行的操作或决策,可离散也可连续。
奖励 (Reward)环境对智能体动作的反馈信号,指导智能体区分好坏行为,以最大化累积奖励为目标。
折扣因子 (Discount Factor, γ)用于计算未来奖励现值的系数,γ∈[0,1],γ 越大表示越重视长期回报,γ 越小表示越偏好短期回报。
累积回报 (Return, Gₜ)智能体从时间步 t 开始到未来各时刻获得的折扣奖励总和: ( G t = ∑ k = 0 ∞ γ k R t + k + 1 ) (G_t = \sum_{k=0}^\infty γ^k R_{t+k+1}) (Gt=k=0γkRt+k+1)
策略 (Policy, π)智能体在各状态下选择动作的概率分布,可为确定性策略或随机策略。
值函数 (Value Function)用于评估状态(或状态–动作对)如何“好”的函数,代表从该状态(或状态–动作对)出发可获得的期望累积回报。
状态–动作值函数 (Q-Value, Q)特殊的值函数,评估在给定状态下执行某动作后,按照策略继续行动可获得的期望累积回报。
马尔可夫决策过程 (MDP)强化学习的数学框架,由状态空间、动作空间、转移概率和奖励函数构成,假设系统满足马尔可夫性。
探索–利用权衡 (Exploration–Exploitation)智能体在尝试新动作(探索)与利用已知最优动作(利用)之间的平衡策略或机制。
模型基 (Model-based)强化学习方法之一,通过学习或已知环境模型来进行规划和决策。
无模型 (Model-free)强化学习方法之一,不显式构建环境模型,直接从交互经验中学习策略或值函数。
On‑policy策略学习方式之一,使用当前行为策略生成数据并更新同一策略,如 SARSA、PPO。
Off‑policy策略学习方式之一,使用与行为策略不同的数据或经验回放更新目标策略,如 Q‑learning、DQN。

3. 强化学习分类

在这里插入图片描述


一、按算法核心思想分类

1. 基于价值(Value-Based)
  • 特点:通过估计状态或动作的长期价值(Q值)选择最优策略。
  • 代表算法:
    • Q-learning:无模型、离线策略,通过最大化未来奖励更新Q表。
    • DQN(Deep Q-Network):结合深度神经网络与Q-learning,解决高维状态空间问题,加入经验回放和目标网络稳定训练。
    • Double DQN:改进DQN的过估计问题,分离动作选择与价值评估。
2. 基于策略(Policy-Based)
  • 特点:直接优化策略函数,输出动作概率分布。
  • 代表算法:
    • REINFORCE:回合更新策略,通过蒙特卡洛采样估计梯度。
    • PPO(Proximal Policy Optimization):限制策略更新幅度,平衡稳定性与效率,广泛应用于游戏和大模型对齐。
    • TRPO(Trust Region Policy Optimization):通过KL散度约束策略更新步长,保证稳定性。
3. Actor-Critic混合方法
  • 特点:结合价值函数(Critic)与策略函数(Actor),兼顾评估与优化。
  • 代表算法:
    • A3C(Asynchronous Advantage Actor-Critic):异步多线程训练,加速收敛。
    • DDPG(Deep Deterministic Policy Gradient):处理连续动作空间,结合确定性策略与Q函数。
    • SAC(Soft Actor-Critic):最大化熵正则化,鼓励探索,提升鲁棒性。

二、按环境模型依赖分类

1. Model-Free(无模型)
  • 特点:不依赖环境动态模型,直接通过交互学习策略或价值函数。
  • 典型算法:Q-learning、DQN、PPO、SAC。
2. Model-Based(有模型)
  • 特点:学习或假设环境模型(如状态转移概率),利用规划优化策略。
  • 代表方法:
    • 动态规划(DP):基于已知模型求解最优策略。
    • 蒙特卡洛树搜索(MCTS):结合模型预测与策略优化,如AlphaGo。

三、按更新方式分类

1. 回合更新(Monte-Carlo)
  • 特点:等待完整回合结束后更新策略,如REINFORCE。
2. 单步更新(Temporal Difference)
  • 特点:每一步交互后立即更新,如Q-learning、SARSA。
3. 多步更新(n-Step Bootstrapping)
  • 特点:平衡单步与回合更新的偏差与方差,如Sarsa(λ)。

四、其他重要算法

  • SARSA:在线策略算法,强调动作选择的连续性,保守性强。
  • A2C(Advantage Actor-Critic):同步版本A3C,简化多线程设计。
  • Imitation Learning(模仿学习):结合专家示范数据加速策略学习。
http://www.xdnf.cn/news/4205.html

相关文章:

  • tp8+swoole搭建
  • 5.2创新架构
  • Linux/AndroidOS中进程间的通信线程间的同步 - 虚拟内存操作
  • 20250506让NanoPi NEO core开发板使用Ubuntu core16.04系统的TF卡启动
  • 德尔菲法和层次分析法是什么
  • 基于STM32、HAL库的W25Q32JVSSIQ NOR FLASH存储器驱动应用程序设计
  • 【日撸 Java 三百行】Day 3(注释,基本if语句,函数调用)
  • Vue 2.0 详解全教程(含 Axios 封装 + 路由守卫 + 实战进阶)
  • OpenCV 图形API(78)图像与通道拼接函数-----调整图像大小的函数resize()
  • C# 方法(值参数和引用参数)
  • mysql 如何查询数据库链接日志
  • Spring 中四种常见初始化方法,对比 static {} 和 @PostConstruct 在并发,Spring 加载顺序大致为: JVM 加载类
  • 生成了一个AI算法
  • 网络安全的范式革命:从被动防御到 AI 驱动的主动对抗
  • 基于大模型的自然临产阴道分娩全流程预测与方案研究报告
  • 开个帖子记录一下自己学spring源码的过程
  • Spyglass:官方Hands-on Training(三)
  • 数据中台架构设计
  • c++类【发展】
  • 【全面解析】Poco C++ Libraries 模块详解与使用指南
  • UE5 使用插件进行Audio2face和UE5的实时链接并实时输出嘴型
  • 多模态训练与微调
  • 突破v0.dev对话限制的两种方法
  • k8s node 报IPVS no destination available
  • 19.第二阶段x64游戏实战-vector容器
  • 二叉树的最大深度(简单)
  • 标题:基于自适应阈值与K-means聚类的图像行列排序与拼接处理
  • LintCode第484题-交换数组两个元素,第9题-Fizz Buzz 问题,第46题-主元素,第50题数组剔除元素后的乘积
  • 超表面加工流程
  • 从零开始了解数据采集(二十二)——塑胶制品行业趋势分析案例