当前位置：首页 > ds >正文

深度学习与自动驾驶中的一些技术

ds 2025/8/25 5:12:27

深度学习与自动驾驶中的一些技术

强化学习 reinforcement learning

框架
1. 智能体在环境中运行
2. 智能体具备执行动作的能力
3. 每个动作都会影响智能体的未来状态
4. 通过奖励信号衡量成功与否
5. 目标是选择能最大化未来奖励的动作
马尔可夫决策过程 Markov Decision Process

是一种用于自动驾驶汽车深度学习的数学模型，用于描述序列决策问题

$s_0,a_0,r_1,s_1,a_1,r_2,...,s_{n-1},a_{n-1},r_n,s_n$

$s$ ：state;

$a$ ：action;

$r$ ：reward

$s_n$ ：Terminal state
Major Components of an RL Agent

policy：策略；智能体的行为函数

value function：价值函数；每个状态和\或动作的好坏程度

model：模型；智能体对环境的表征
value function

future reward：

$R=r_1+r_2+r_3+...+r_n$

$R_t=r_t+r_{t+1}+r_{r+2}+...+r_n$

discounted future reward(environment is stochastic)未来奖励的折扣（环境是随机的）:

$R_t=r_t+γr_{t+1}+γ^2r_{t+2}+...+γ^{n-t}r_n = r_t+γ(r_{t+1}+γ(r_{t+2}+...)) = r_t+γR_{t+1}$

对于智能体来说，一个好的策略是始终选择一个最大化（discounte）未来奖励的动作
Q-Learning

Q学习是一种强化学习算法，常用于自动驾驶等机器学习领域

state value function:状态价值函数： $V^Π(s)$

在s开始并跟随Π时的预期返回

state-action value function:状态-动作价值函数： $Q_Π(s,a)$

在s中开始、执行a和跟随Π时的预期返回

Useful for finding the optimal policy可用于查找最佳策略

可以基于经验进行估计（Monte Carlo）

使用 $Q_Π(s,a)$ 选择最佳动作

Q-learning: off-policy非策略

使用任何策略来估计Q，以最大化未来的奖励： $Q(s_t,a_t)=maxR_{t+1}$

Q直接近似于Q* (Bellman最优性方程）

与所遵循的政策无关

仅需满足一个条件：持续更新每个（s，a）对

$Q_{t+1}(s_t,a_t)=Q_t(s_t,a_t)+α(R_{t+1}+γmax_aQ_t(s_{t+1},a)-Q_t(s_t,a_t))$

$Q_{t+1}(s_t,a_t)$ :新状态

$Q_t(s_t,a_t)$ :旧状态

$R_{t+1}$ :奖励

$α$ :学习率

$γ$ :discount factor
Deep Q-Learning

使用函数（带参数）来近似Q函数

非线性：Q-Network

$Q(s,a;θ)≈Q∗(s,a)Q(s,a;\theta)≈Q^*(s,a)$
1. Deep Q-Network: Atari
2. training:
  
  bellman equation: $Q(s,a)=r+γmax_{a'}Q(s',a')$
  
  loss function(squared error): $L=E[(r+γmax_{a'}Q(s',a')-Q(s,a))]$

Long Short Term Memory（LSTM）Networks

LSTM：选择忘记什么和记住什么
LSTM Conveyer Belt

LSTM传送带用于传输先前状态和新的数据：

决定忘记什么（状态）

决定记住什么（状态）

决定输出什么（条件判断）
1. step1：决定忘记/忽视什么
  
  $ft=σ(Wf⋅[ht−1,xt]+bf)f_t=\sigma(W_f·[h_{t-1},x_t]+b_f)$
2. step2：决定要更新哪些状态值（使用sigmoid函数）以及用哪些值进行更新（使用tanh函数）
  
  $it=σ(Wi⋅[ht−1,xt]+bi)i_t=\sigma(W_i·[h_{t-1},x_t]+b_i)$
  
  $C~t=tanh(Wc⋅[ht−1,xt]+bC)\widetilde{C}_t=tanh(W_c·[h_{t-1},x_t]+b_C)$
3. step3：执行遗忘和状态更新
  
  $Ct=ft∗Ct−1+it∗C~tC_t=f_t*C_{t-1}+i_t*\widetilde{C}_t$
4. step4：生成输出时使用tanh [-1,1]决定数值，同时使用sigmoid [0,1]进行过滤
  
  $ot=σ(Wo[ht−1,xt]+bo)o_t=\sigma(W_o[h_{t-1},x_t]+b_o)$
  
  $h_t=o_t*tanh(C_t)$