【论】电力-交通融合网协同优化:迎接电动汽车时代的挑战
Collaborative Optimization Operation of Integrated Electric Power and Traffic Network Based on Graph Neural Network Multi-agent Reinforcement Learning
文章目录
- Collaborative Optimization Operation of Integrated Electric Power and Traffic Network Based on Graph Neural Network Multi-agent Reinforcement Learning
- 引言
- 1.背景:能源危机与环境挑战下的必然选择
- 2. 电力-交通融合网:车-路-电的深度融合
- 3. IETN 协同优化的挑战:复杂性与不确定性
- 4. 强化学习的优势:智能决策与自适应优化
- 一、电动汽车充电引导数学模型
- 1.1 时间成本
- 路程时间 (Troad)
- 等待时间 (Twait)
- 充电时间 (Tcharging)
- 1.2 充电成本
- 二、基于图神经网络多智能体强化学习的电动汽车充电引导策略
- 2.1 局部观测马尔科夫决策过程
- POMDP过程
- 观测状态
- 动作行为
- 奖励
- 2.2 图神经网络多智能体强化学习算法
- GAT
- 神经网络结构
- 图神经网络多智能体强化学习训练过程
- 三、配电网最优潮流模型
- 二阶锥优化 (SOCO)
- 节点边际电价 (LMP)
- 四、仿真算例
- 4.1 仿真设置
- 4.2 对比算法
- 4.3 仿真结果与分析
本篇论文评估:用GAT建立图结构,用GNN抓取信息,用DQN获得动作选择。说是多智能体,但本质上是单智能体的。但是提供很好了状态向量空间的搭建方法。优点是面对不确定性,采用期望loss值的方法。
电动汽车的普及,不仅改变了我们的出行方式,更深刻地重塑着电力系统和交通网络的交互模式。如何高效、智能地协同管理这个融合网络,是当前亟待解决的关键问题。
引言
1.背景:能源危机与环境挑战下的必然选择
2. 电力-交通融合网:车-路-电的深度融合
随着电动汽车数量的激增,它不再是孤立的个体,而是成为了连接电力系统和交通系统的新纽带。
电力-交通融合网(integrated electric power and traffic network, IETN ): 电力系统与交通系统深度耦合的新型网络
- 多主体交互:电动汽车、充电站、电网、交通网络
- 动态耦合:交通流量影响电力负荷,电力价格引导交通行为
- 不确定性:可再生能源波动、用户行为随机性
目标: 提升系统效率、降低运行成本、保障安全可靠
3. IETN 协同优化的挑战:复杂性与不确定性
传统的优化方法,往往基干静态模型和确定性假设,难以捕捉到电动汽车,交通,电网之间那种动态实时的复杂互动。
传统方法局限性
- 静态优化模型,忽略动态交互
- 确定性假设,难以应对不确定性
- 缺乏对电动汽车间相互影响的刻画
多重不确定性因素
- 电动汽车充电需求、时间、地点
- 可再生能源出力波动
- 交通流量变化
- 充电电价波动
复杂系统耦合
- 电力系统、交通系统、用户行为相互影响
4. 强化学习的优势:智能决策与自适应优化
- 免模型算法:无需精确系统模型,直接从数据中学习
- "试错"机制:智能体通过与环境交互,不断调整策略
- 长期回报最大化:关注全局最优,而非局部最优
- 自适应性:适应环境变化,持续优化策略
- 适用于复杂系统:处理高维、非线性、不确定问题
一、电动汽车充电引导数学模型
电动汽车充电引导行为涉及交通、电力和电动汽车等多个主体,包含了大量的不确定性因素,如电动汽车初始充电剩余电量(state of charge, SOC)不确定性,交通路况的不确定性和充电排队时间不确定性等,这些不确定因素造成电动汽车充电行为也具有较强的不确定性。电动汽车需要进行充电时,其根据当前车辆 SOC、交通系统和充电站状况确定最优的充电路线和充电站进行充电,目的是使得电动汽车充电花费的时间成本和充电成本最小。
电动汽车充电引导数学模型[18]可以构建为
充电总成本 = 时间成本 + 充电成本
目标:找到一个平衡点,让这两部分成本加起来是最小的。
1.1 时间成本
路程时间 (Troad)
等待时间 (Twait)
充电时间 (Tcharging)
1.2 充电成本
- 充电电价 (λ)
- 电池容量 (Ecap)
- 剩余电量 (SOC)
二、基于图神经网络多智能体强化学习的电动汽车充电引导策略
本文将研究区域中的电动汽车看作智能体,并将其视为节点 n ∈ N n ∈N n∈N ;将 2 辆在同一条道路上或者距离在某一半径内的电动汽车视为一条边 e ∈ E e ∈E e∈E 。通过图理论的方式构造图网络模型 G T = ( N , E ) G_T=(N, E) GT=(N,E),以此研究电动汽车用户间的相互影响,制定更贴合实际和合理的电动汽车充电引导策略.
随着电动汽车的运行,电动汽车间的连接关系也在不断发生变化,即图网络 G T G_T GT 在不断变化.为了处理这种图结构数据及其不断变化的连接关系,提出了一种基于图神经网络的多智能体强化学习算法(graph multi-agent reinforcement learning, GMARL) 对电力–交通融合网进行协同优化运行研究
图神经网络算法采用图注意力网络(graph attentionnetwork, GAT)[22],用于特征提取和处理这种不规则非欧式结构数据;多智能体强化学习算法采用深度Q 网络(deep Q network, DQN)算法[23-24],用于对电动汽车充电引导策略进行优化决策。
GAT 的注意力机制: 关注重要邻居,提升模型精度
2.1 局部观测马尔科夫决策过程
本文将电动汽车充电引导问题构造为一个部分 可 观 测 马 尔 科 夫 决 策 过 程 (partially observable Markov decision process, POMDP)。POMDP 仅考虑 有限辆电动汽车的信息,在构建神经网络时能够有效降低神经网络规模,从而加快算法的计算速度和收敛速度。
每个电动汽车智能体只能看到自己周围有限的信息,而不是全局全貌。它需要根据自己的状态、看到的交通信息、邻居车辆的状态以及充电站的信息,来决定下步该走哪条路。算法的目标是最大化累积奖励,这里的奖励就是我们前面定义的充电总成本的负值。通过不断地尝试和学习,GMARL就能逐渐掌握最优的充电策略。
POMDP 问题被定义为一个六元组 < S , X , A , R , T , γ > <S, X, \mathscr{A},\mathscr{R},\mathscr{T},\gamma> <S,X,A,R,T,γ>. 为了更加及时地对电动汽车的充电引导策略进行优化决策,时间间隔设置为 t Δ = 30 t_Δ =30 tΔ=30 s
- 状态: s ∈ S s\in S s∈S . 电动汽车自身状态、交通信息、近邻车辆信息、充电站信息
- 局部观测空间: x i ∈ X 1 : N x_i \in X_{1:N} xi∈X1:N
- 动作空间: a i ∈ A 1 : N a_i \in \mathscr{A}_{1:N} ai∈A1:N .选择下一节点路径
- 立即奖励函数: r i ( x , a ) ∈ R 1 : N r_i(x,a) \in \mathscr{R}_{1:N} ri(x,a)∈R1:N :充电总成本的负值(最小化成本)
- 状态转移函数: T ( s , a 1 : n , w ) \mathscr{T}(s,a_{1:n},w) T(s,a1:n,w) ,状态转移概率。其中 w w w表示环境中的多种不确定因素。
- 折扣因子: γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ∈[0,1]
GMARL 算法: 在 POMDP 框架下训练 GMARL 算法,实现最优充电引导。
POMDP过程
首先,t 时刻电动汽车智能体 i 通过观察环境得到观测状态 x i , t x_{i,t} xi,t,然后根据策略 π ( x i t ) \pi(x_{it}) π(xit) 选择一个行为动作