网站首页  英汉词典  古诗文  美食菜谱  电子书下载

请输入您要查询的图书:

 

书名 基于强化学习理论的交通控制模型研究/学术专著
分类 科学技术-工业科技-交通运输
作者 卢守峰
出版社 中南大学出版社
下载 抱歉,不提供下载,请购买正版图书。
简介
编辑推荐

卢守峰编写的《基于强化学习理论的交通控制模型研究》是利用强化学习理论对交通控制进行建模的研究,主要介绍强化学习理论、集成Vissim-Excel VBA-Matlab的仿真平台构建、基于Q学习的绿灯时间优化模型、基于sarsa学习的绿灯时间优化模型、基于Q学习的相位差优化模型、基于风险敏感强化学习的绿灯时间优化模型。

目录

第1章 绪论

 1.1 研究背景及意义

 1.2 国内外研究现状

1.2.1 交通控制发展现状

1.2.2 自适应信号控制研究现状

1.2.3 典型的交通控制系统

 1.3 研究目的

 1.4 主要内容

第2章 强化学习理论简介

 2.1 强化学习基本原理

 2.2 Q学习算法基本理论

2.2.1 Q学习算法步骤

2.2.2 期望回报函数

2.2.3 状态一行为对的p值函数

2.2.4 行为选择机制

2.2.5 9值更新函数

 2.3 强化学习的其他算法

2.3.1 动态规划算法

2.3.2 蒙特卡罗算法

2.3.3 瞬时差分学习算法

2.3.4 SARsA学习算法

2.3.5 Dyna学习算法

2.3.6 AHC学习算法

2.3.7 TD学习算法

第3章 集成Vi~im-Excd—VBA-Matlab的仿真平台

 3.1 Vissim简介

 3.2 仿真平台的集成技术

3.2.1 Vissim与Excel—VBA接口技术

3.2.Excel—VBA与Matlab接口技术

3.2.3 Vissim、Excel—VBA与Matlab集成技术

 3.3 集成Vissim—Excel—VBA—Matlab的仿真平台构建

3.3.1 仿真平台的构建方法

3.3.2 集成仿真平台的工作环境设置

3.3.3 集成仿真平台的实际应用

 3.4 本章小结

第4章 绿灯时间优化的离线Q学习模型

 4.1 概述

 4.2 离线p学习绿时优化模型的构建

 4.3 数值实验环境

 4.4 定周期等饱和度离线Q学习绿时优化模型

4.4.1 定周期等饱和度离线Q学习优化

4.4.2 定周期等饱和度优化结果在线应用

 4.5 变周期等饱和度离线Q学习绿时优化模型

4.5.1 变周期等饱和度离线Q学习优化

4.5.2 变周期等饱和度优化结果在线应用

 4.6 定周期延误最小离线Q学习绿时优化模型

4.6.1 定周期延误最小离线p学习优化

4.6.2 定周期延误最小优化结果在线应用

 4.7 变周期延误最小离线Q学习绿时优化模型

4.7.1 变周期延误最小离线p学习优化

4.7.2 变周期延误最小优化结果在线应用

 4.8 模型在线优化效果对比

 4.9 本章小结

第5章 绿灯时间优化的在线Q学习模型

 5.1 最小化运算的Q学习算法

 5.2 状态、行为、奖赏的建模

 5.3 行为选择函数

 5.4 Q学习参数的调整与p值初始化

 5.5 在线学习流程

 5.6 定周期两相位模型在线仿真结果及分析

5.6.1 定周期两相位模型性能测试

5.6.2 实际案例——猴子石大桥路况仿真分析

 5.7 定周期、变周期四相位模型在线仿真结果及分析

5.7.1 Fransyt信号配时方案

5.7.2 定周期四相位p学习配时方案

5.7.3 变周期四相位9学习配时方案

5.7.4 两种方案与Transyt的对比

5.7.5 到达流量变化情况下的变周期9学习配时方案

 5.8 本章小结

第6章 绿灯时间优化的离线D学习模型

 6.1 基本概念

 6.2 绿灯时间等饱和度的D学习模型

6.2.1 定周期奖赏不分级的TD学习模型

6.2.2 定周期奖赏分级的FD学习模型

6.2.3 变周期奖赏不分级的TD学习模型

6.2.4 变周期奖赏分级的TD学习模型

 6.3 算例分析

6.3.1 交通状况设置

6.3.2 定周期奖赏不分级的TD学习模型

6.3.3 定周期奖赏分级的TD学习模型

6.3.4 变周期奖赏不分级的TD学习模型

6.3.5 变周期奖赏分级的TD学习模型

 6.4 绿灯时间等饱和度的状态模糊TD学习模型

6.4.1 模糊理论简介

6.4.2 隶属度函数

6.4.3 状态模糊函数的选取

6.4.4 定周期奖赏不分级的状态模糊TD学习模型

6.4.5 定周期奖赏分级的状态模糊TD学习模型

6.4.6 变周期奖赏不分级的状态模糊TD学习模型

6.4.7 变周期奖赏分级的状态模糊TD学习模型

 6.5 本章小结

第7章 绿灯时间优化的风险敏感强化学习模型

 7.1 风险中立控制方法

 7.2 风险敏感控制方法

7.2.1 最坏情况控制

7.2.2 基于指数效应函数的风险敏感控制

7.2.3 时间差分风险敏感强化学习理论简介

 7.3 绿灯时间优化的风险避免学习模型

7.3.1 p值更新函数的建立

7.3.2 状态、行为的选择

7.3.3 奖励函数的构造

7.3.4 行为选择机制

7.3.5 在线学习的步骤

7.3.6 实例分析

 7.4 绿灯时间优化的风险寻求学习模型

7.4.1 风险寻求的概念

7.4.2 模型的提出及构建

7.4.3 实例分析

 7.5 本章小结

第8章 相位差优化的离线Q学习模型

 8.1 相位差及公共周期

8.1.1 相位差

8.1.2 公共周期

 8.2 Maxband相位差优化方法

 8.3 离线p学习相位差优化模型的构建

 8.4 实验环境

 8.5 基于离线p学习的相位差优化

8.5.1 相位差离线p学习优化

8.5.2 相位差优化结果在线应用

 8.6 本章小结

第9章 预测式交通管理预案研究

 9.1 基于开源软件的OD反推算法研究

9.1.1 DTALite软件简介

9.1.2 DTALite中静态0D反推算法研究

9.1.3 0D反推模型求解

 9.2 基于DYNAMEQ平台的交通管理预案研究

9.2.1 DYNAMEQ软件概述

9.2.2 技术路线

9.2.3 DYNAMEQ平台中模型的建立

9.2.4 交通管理预案及评估

9.2.5 本章小结

参考文献

随便看

 

Fahrenheit英汉词典电子书栏目提供海量电子书在线免费阅读及下载。

 

Copyright © 2002-2024 frnht.com All Rights Reserved
更新时间:2025/11/24 2:16:14