什么是强化学习:设置奖励函数最为loss, 监督学习:标签准确率作为loss
什么是强化学习:设置奖励函数最为loss, 监督学习:标签准确率作为loss
什么是强化学习:在复杂环境中自主探索,适用于序列决策
- 最大优势:
通过试错探索发现最优策略,适应环境动态变化,擅长解决需要长期规划和序列决策的问题。 - 典型案例:
- 游戏AI(如AlphaGo/AlphaZero):
目标:围棋/象棋对弈中获胜。- 无标注数据,仅通过自我对弈生成数据,以“胜负”作为奖励信号。
- AlphaGo通过强化学习击败人类冠军,AlphaZero仅用3天自我训练超越所有传统棋类AI。
- 机器人控制(如波士顿动力机器人):
任务:机器人行走、跳跃、避障。- 无预先设定的动作序列,机器人通过尝试不同动作(如调整关节角度),根据“是否摔倒”“移动速度”等奖励信号优化策略,最终实现复杂动作。
- 自动驾驶(如Wa
- 游戏AI(如AlphaGo/AlphaZero):