未来智库 > 神经网络论文 > 基于神经网络的强化学习研究概述

基于神经网络的强化学习研究概述

发布时间:2017-12-06 16:47:00 文章来源:未来智库    
    关键词:强化学习;神经网络;马尔科夫决策过程;算法;应用
    中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2012)28-6782-05
    在机器学习领域,大致可以将学习分为监督学习、非监督学习和强化学习三大类。强化学习以其在线学习能力和具有无导师制的自适应能力,因此被认为设计智能Agent的核心技术之一。从20世纪80年代末开始,随着数学基础日益发展的支持,应用范围不断扩大,强化学习也就成为目前机器学习的研究热点之一。在研究过程中,随着各种方法、技术和算法大量应用于强化学习中,其缺陷和问题也就日渐显现出来,寻找一种更好的方式和算法来促进强化学习的发展和广泛应用,是研究人员探讨和研究的重点。因此,神经网络及其算法以其独特的泛化能力和存储能力成为众多研究人员重视的研究对象。
    在此之前,已有大量研究者通过神经网络的特性来加强强化学习的效果及应用。张涛[2]等人利用将Q学习算法和神经网络中的BP网络、S激活函数相结合,加上神经网络的泛化能力,不仅解决了倒立摆系统的一系列问题,而且还进一步提高了强化学习理论在实际控制系统的应用。林联明在神经网络的基础研究Sarsa强化算法,提出用BP网络队列保存SAPs,解决由于过大而带来的Q值表示问题[3]。强化学习理论在机器控制研究中也应用广泛。段勇在基于行为的移动机器人控制方法基础上,将模糊神经网络与强化学习理论相结合,构成模糊强化系统,解决了连续状态空间和动作空间的强化学习问题和复杂环境中的机器人导航问题[4]。由此可见,将神经网络与强化学习相结合,已经是现今强化学习研究的重点方向,也已经取得了颇丰的成果。但是,如何将神经网络和强化学习理论更好的融合,选择何种算法及模型,如何减少计算量和加快学习算法收敛速度,以此来推动强化学习理论研究更向前发展,解决更多的实际应用问题,这些依然还是待解决的研究课题之一。下面,根据本人对强化学习的研究,朋友给予的指导以及参照前人的研究成果,对基于神经网络的强化学习作个基本概述。
    1 强化学习
    强化学习(reinforcement),又称再励学习或评价学习,它是重要的机器学习方法之一,在机器人控制、制造过程控制、任务调配及游戏中有着广泛的应用。
    1.1 定义
    所谓强化学习就是智能Agent从环境状态到行为映射的学习,并通过不断试错的方法选择最优行为策略,以使动作从环境中获得的累积奖赏值最大。
    强化学习状态值函数有三个基本表达式,如下:
    这三个状态的值函数或状态—动作对函数的值函数是用来表达目标函数,该目标函数是从长期的观点确定什么是最优的动作。其中[γ]为折扣因子,[rt]是agent从环境状态[st]到[st+1]转移后所接受到的奖赏值,其值可以为正,负或零。其中式(1)为无限折扣模型,即agent需要考虑未来h([h→∞])步的奖赏,且在值函数以某种形式进行累积;式(2)为有限模型,也就是说agent只考虑未来h步的奖赏和。式(3)为平均奖赏模型,agent考虑其长期平均的奖赏值。最优策略可以由(4)式确定
    1.2 基本原理与一般结构
    强化学习就是能够和环境进行交互的智能Agent,通过怎样的学习选择能够达到其目标的最优动作。通俗的说,在Agent与环境进行交互的过程中,每个行为动作都会获得特定的奖赏值。如果Agent的某个行为策略导致环境正的奖赏值(强化信号),那么Agent以后产生这个行为策略的趋势就会加强。Agent的目标就是对每个离散的状态发现最优策略以期望的折扣奖赏和最大。
    在上述定义中描述了强化学习的三个状态值或函数动作对函数来表达目标函数,可以求得最优策略(根据(4)式)。但是由于环境具有不确定性[5],因此在策略[π]的作用下,状态[st]的值也可以写为
    强化学习把学习看作试探评价过程,可用图1描述。强化学习选择一个动作作用于环境,环境受到作用后其状态会发生变化,从一个状态转换到另一个状态,同时产生一个强化信号反馈给Agent,即奖惩值。Agent接受到奖惩值和环境状态变化,进行学习更新,并根据奖惩值和环境当前状态选择下一个动作,选择的原则是使受到正强化(奖)的概率增大。选择的动作不仅影响立即强化值,而且影响环境下一时刻的状态及最终的强化值。
    2 神经网络
    2.1 神经网络概述
    神经网络是指模拟人类大脑的神经系统的结构与功能,运用大量的处理部件,采用人工方式构造的一种网络系统。神经网络是一种非线性动力学系统,并且具有以分布式存储和并行协同处理的特点,其理论突破了传统的、串行处理的数字计算机的局限。尽管单个神经元的结构和功能比较简单,但是千千万万个神经元构成的神经网络系统所能表现的行为却是丰富多彩的。
    单个神经元的模型如图2所示。
    人工神经元模型由一组连接,一个加法器,一个激活函数组成。连接强度可由各连接上的值表示,权值为正表示激活,权值为负表示抑制;加法器用于求输入信号对神经元的相应突触加权之和。激活函数用于限制神经元输出振幅。
    神经元还可以用如下公式表示
    激活函数主要有阈值函数、分段线性函数、非线性转移函数三种主要形式。
    一般来说,神经网络在系统中的工作方式是:接受外界环境的完全或者不完全的状态输入,并通过神经网络进行计算,输出强化系统所需的Q值或V值。人工神经网络是对人脑若干基本特性通过教学方法进行的抽象和模拟,是一种模仿人脑结构及功能的非线性信息处理系统。   2.2 强化学习与神经网络的融合
    经过研究发现,神经网络的众多优点,可以满足强化学习研究的需要。首先,由于神经网络模仿人的大脑,采用自适应算法,使得Agent智能系统更能适应环境的变化。此外,神经网络具有较强的容错能力,这样可以根据对象的主要特征来进行较为精确的模式识别。最后,神经网络又有自学习,自组织能力和归纳能力的特点,不仅增强了Agent对不确定环境的处理能力,而且保证了强化学习算法的收敛性。神经网络也有无导师学习机制,正好适用于强化学习。
    强化学习和神经网络的融合重点在于如何运用神经网络多重特性,能够快速高效地促进Agent智能系统经历强化学习后,选择一条最优行为策略来满足目标需求。强化学习的环境是不确定的,无法通过正例、反例告知采取何种行为。Agent必须通过不断试错才能找到最优行为策略。但是在此过程中,会遇到许多问题,比如输出连续的动作空间问题,但可利用神经网络的泛化特征,实现了输出在一定范围内的连续动作空间值[2]。所以,简单的讲,将神经网络和强化学习相融合,主要是利用神经网络强大的存储能力和函数估计能力。目前,在函数估计强化学习研究上,神经网络是研究热点之一。
    3 马尔科夫决策过程
    本文主要论述马尔科夫型环境下的强化学习,可以通过马尔科夫决策过程进行建模。下面给出其形式定义:
    基本的POMDP由四个元组成:。S是指一个环境状态集,可以是有限的,可列的或者任意非空集;A为Agent行为集合,用A(s)表示在状态s处可用的决策集;奖赏函数R(s,a):[A×S]->Real;T:[A×S]->PD(S);T(s,a,s')为Agent在状态s采用a动作使环境状态转移到s'的概率。
    一个有限的马尔科夫决策过程有5元组成:;前四个元与上述是一致的,V为准则函数或者目标函数[3],常用准则函数有期望折扣总报酬、期望总报酬和平均报酬等并且可以是状态值函数或状态-动作对值函数。
    马尔科夫决策过程的本质是:当前的状态转变为另一个状态的概率和奖赏值只取决于当前的状态和选择的动作,与过去的动作和状态无关。所以,在马尔科夫环境下,已知状态转移概率函数T和奖赏函数R,可以借助于动态规划技术求解最优行为策略。
    4 改进的强化学习算法
    到目前为止,强化学习领域提出的强化学习算法层出不穷,如Sutton提出的TD算法[6],Watkins提出的Q-Learning算法[7],Rummery和Niranjan于1994提出的Sarsa算法[8],以及Dyna-Q学习算法[9]等。致力于这方面研究的研究人员,都在极力寻找一种既能保证收敛性,又能提高收敛速度的新型学习算法。本文主要在基于神经网络的特性,研究并提出改进的强化学习算法。
    4.1 基于模糊神经网络的Q([λ])学习算法
    Q学习算法是强化学习领域重要的学习算法之一[7,10],它利用函数Q(x,a)来表达与状态相对应的各个动作的评估。Q学习算法的基本内容为:
    (1)任意初始化一个Q(x,a)
    (2)初始化 s
    (3)从决策集中随即选择一个动作a
    (4)采取动作策略a,观察[r,][s]'的值
    (5)计算 [Qs,a←Qs,a+αr+γmaxa'Qs',a'-Qs,a], (11)
    (7)重复(2)-(6)步,直到s终结。
    式(11)使用下一状态的估计来更新Q函数,称为一步Q学习。将TD([λ])的思想引入Q学习过程,形成一种增量式多步Q学习,简称Q([λ])学习[11]。步骤与Q算法类似,其计算公式如下:
    如果 [s=st,a=at],则[Qst,at=Qst,at+αtγt+γtetst+at]; (12)
    4.2 基于BP神经网络的Sarsa算法
    描述如下:(1)H是用于保存最近访问的Q值,当满的时候送至神经网络训练。
    如果表H已满,则利用H中的样本对网络进行训练,版本号自动增加1
    若网络队列q也已满,则队尾元素出队,把新训练的神经网络入队q;
    清空训练集;
    该算法的主要贡献是引入神经网络队列保存大量的Q值表,从来降低了保存大量Q值所要花费大量的内存空间,更重要的是解决了单个神经网络“增量式”学习所带来的“遗忘”问题。
    5 强化学习应用
    由于强化学习在算法和理论方面的研究越来越深入,在大空间、复杂非线性控制,机器人控制、组合优化和调度等领域呈现出良好的学习性能,使得强化学习在人工智能,控制系统,游戏以及优化调度等领域取得了若干的成功应用,而本文主要介绍基于神经网络的强化学习算法在某些领域的应用。
    在非线性控制系统方面,张涛等人[2]将BP网络运用于 Q-Learning算法中,成功解决了连续状态空间的倒立摆平衡控制问题和连续状态空间输入、连续动作空间输出的问题,从而提高了强化学习算法的实际应用价值;在机器人控制方面,应用更为广泛,Nelson[13]等人考虑了基于模糊逻辑和强化学习的智能机器人导航问题,并且段勇等人[4]基于该理论,成功地将模糊神经网络和强化学习结合起来,采用残差算法保证函数逼近的快速性和收敛性,有效地解决了复杂环境下机器人导航的问题。在游戏方面,Tesauro采用三层BP神经网络把棋盘上的棋子位置和棋手的获胜概率联系起来,通过训练取得了40盘比赛中只输一盘的好战绩[14]。在优化调度方面,主要包括车间作业调度,电梯调度以及网络路由选择等,Robert Crites等[15]将强化学习和前馈神经网络融合利用,以最终实验结果表明为依据,证明了该算法是目前高层建筑电梯调度算法中最优算法之一。
    6 结束语
    本文将强化学习和神经网络相融合,介绍利用神经网络强大的存储能力、泛化能力及函数估计能力,可以解决强化学习领域遇到的连续状态和动作输入、输出的问题,学习状态空间过大的问题以及不确定环境处理的问题等。基于此,主要论述了三种神经网络和强化学习的改进算法,它们都综合了神经网络的特性。最后,简单介绍了目前基于神经网络的强化学习应用的成功实例。目前,利用神经网络进行强化学习依然是研究热点课题之一。   参考文献:
    [1] 高阳,陈世福,陆鑫. 强化学习研究综述[J].自动化学报,2004,30(1):86-100.
    [2] 张涛,吴汉生.基于神经网络的强化学习算法实现倒立摆控制[J].计算机仿真,2006,23(4):298-300.
    [3] 林联明,王浩,王一雄.基于神经网络的Sarsa强化学习算法[J].计算机技术与发展,2006,16(1):30-32.
    [4] 段勇,徐心如.基于模糊神经网络的强化学习及其在机器人导航中的应用[J].控制与决策,2007,22(5):525-529.
    [5] 刘忠,李海红,刘全.强化学习算法研究[J].计算机工程与设计,2008,29(22):5805-5809.
    [6] Sutton R S.Learning to predict by the methods of temporal differences.Machine Learning,1988,3:9-44.
    [7] Watkins P.Dayan.Q-Learning.Machine Learning,1992,8(3):279-292.
    [8] Rummery G,Niranjan M. On-line Q-Learning using connectionist systems. Technical Report CUED/F-INFENG/TR 166,Cambridge University Engineering Department,1994.
    [9] Sutton R S,Barto A G, Williams R. Reinforcement Learning is direct adaptive optional control.IEEE Control Systems Manazine,1991,12(2):19-22.
    [10] Sutton R S, Barto A G. Reinforcement Learning: An introduction[M].Cambridge:MIT Press ,1998.
    [11] Peng J , Dayan P. Q-learning [J]. Machine Learning,1992,8(3):279-292.
    [12] Kelley H J , Cliff E M, Lutze F H. Pursuit/evasion in orbit[J]. J of the Astronautical Sciences, 1981, 29(3):277-288.
    [13] NELSON H C, YUNG. An intelligent mobile vehicle navigator based on fuzzy logic and reinforcement learning [J].IEEE Trans on Systems, Man and Cybernetics, Part B: Cybernetics,1999,29(2):314-321.
    [14] Kaelbling L P, Littman M L, Moore A W. Reinforcement learning: A Survey[J].Journal of Artificial Intelligence Research, 1996(4): 237-285.
    [15] Crites R H, Barto A G. Elevator group control using multiple reinforcement learning agents. Machine Learning, 1998, 33(2): 235-262.
转载请注明来源。原文地址:https://www.7428.cn/vipzj5345/
 与本篇相关的热门内容: