认识强化学习

释放双眼,带上耳机,听听看~!
了解强化学习的定义、智能体及其在机器学习领域的应用,探索智能体与环境交互的学习过程。

认识强化学习

今天我们先来了解机器学习中强化学习。

强化学习(RL)作为机器学习的一个分支,其灵感来源于心理学中的行为主义论,即智能体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。它强调如何基于环境而行动,以取得最大化的预期利益。通俗的讲:就是根据环境学习一套策略,能够最大期望化奖励。由于它具有普适性而被很多领域进行研究,例如自动驾驶、博弈论、控制论、运筹学、信息论、仿真优化、多主体系统学习、群体智能、统计学以及遗传算法等。

认识强化学习

1.强化学习的定义

与前文中提到的监督学习,无监督学习和半监督学习不同,在这里,我们先给强化学习下一个定义:所谓强化学习,到底是什么。从宏观意义上来讲,强化学习,就是在与环境交互中进行学习。

举一个例子:我们生活中常见的学习过程,你走在大街上,向前迈出了一步,结果撞到了树上,你感觉到了疼痛,所以你换了个方向来绕过树这个障碍。用图来表示是这样的:

认识强化学习

强化学习模仿了这个过程,在智能主体与环境的交互中,学习能够最大化收益的行动模式

认识强化学习

强化学习是智能体(Agent)以“试错”的方式进行学习,通过与环境进行交互获得的奖赏指导行为,目标是使智能体获得最大的奖赏,强化学习不同于连接主义学习中的监督学习,主要表现在强化信号上,强化学习中由环境提供的强化信号是对产生动作好坏的一种评价(通常该信号为标量信号),而不是告诉强化学习系统(RLS)如何产生正确的动作。由于外部环境提供的信息很少,强化学习系统(RLS)必须依靠自身的经历进行学习。通过这种方式,强化学习系统(RLS)在行动-评价的环境中获得知识,改进行动方案以适应环境。

认识强化学习

好啦,经过前文的介绍,相信你已经对强化学习有了基本的认识啦,下面我们继续往下讲。

2.智能体(Agent)

前文中提到了智能体,那么,这个智能体又是何方神圣呢?我们按照字面意思来理解,就是具有智能的实体,称为(Agent).

智能体在人工智能领域中是一个比较抽象的概念,我们把独立且有独立思想并可以同环境交互的任何实体均可以抽象定义为智能体。

2.1智能体的定义

目前对智能体最为权威的定义是这样的:智能体是指在某一环境下,能够持续自主的发挥作用,具备驻留性、反应性、社会性、主动性等特征的计算实体。

但事实上,智能体有很多种定义:

智能体在某种程度上属于人工智能研究范畴,因此要想给智能体下一个确切的定义就如同给人工智能下一个确切的定义一样困难。在分布式人工智能和分布式计算领域争论了很多年,也没有一一个统一 -的认识。

研究人员从不同的角度给出了智能体的定义,常见的主要有以下几种:

1. FIPA(Foundation forlntelligent Physical智能体),一个致力于智能体技术标准化的组织给智能体下的定义是:”智能体是驻留于环境中的实体,它可以解释从环境中获得的反映环境中所发生事件的数据,并执行对环境产生影响的行动。” 在这个定义中,智能体被看作是一种在环境中”生存”的实体,它既可以是硬件(如机器人),也可以是软件。

2.著名智能体理论研究学者Wooldridge博士等在讨论智能体时,则提出”弱定义”和“强定义”二种定义方法:弱定义智能体是指具有自主性、社会性、反应性和能动性等基本特性的智能体;强定义智能体是指不仅具有弱定义中的基本特性,而且具有移动性、通信能力、理性或其它特性的智能体;

3. Franklin和Graesser则把智能体描述为”智能体是一个处于环境之 中并且作为这个环境一部分的系统,它随时可以感测环境并且执行相应的动作,同时逐渐建立自己的活动规划以应付未来可能感测到的环境变化”;

4.著名人工智能学者、美国斯坦福大学的Hayes-Roth认为”智能智能体能够持续执行三项功能: 感知环境中的动态条件;执行动作影响环境条件;进行推理以解释感知信息、求解问题、产生推断和决定动作”;

5.智能体研究的先行者之一, 美国的Macs则认为”自治或自主智能体是指那些宿主于复杂动态环境中,自治地感知环境信息,自主采取行动,并实现一系列预先设定的目标或任务的计算系统”。

2.2 智能主体的特性

由以上定义可知,智能体具有下列基本特性:

(1)自治性(Autonomy ):智能体能根据外界环境的变化,而自动地对自己的行为和状态进行调整,而不是仅仅被动地接受外界的刺激,具有自我管理自我调节的能力。

(2)反应性(Reactive):能对外界的刺激作出反应的能力、

(3)主动性(Proactive):对于外界环境的改变,智能体能主动采取话动的能力。

(4)社会性(Social ):智能体具有与其它智能体或人进行合作的能力,不同的智能体可根据各自的意图与其它智能体进行交互,以达到解决问题的目的。

(5)进化性:智能体能积累或学习经验和知识,并修改自己的行为以适应新环境

2.3环境

我们在在计算机工程中常常说要配置环境,那么究竟什么是环境呢?
用三句话来概括环境:

1.环境是系统中中智能主体以外的部分

2.环境向智能主体反馈状态和奖励

3.环境按照一定的规律发生变化

认识强化学习

2.4特点

强化学习的特点归纳起来也是三句话:

1.强化学习的学习是一种基于评估的学习,即强化学习利用所处环境评估当前策略,并以此为依据进行优化。

2.强化学习是一种交互性的学习,即强化学习的数据是在与环境交互中产生的。

3.强化学习的决策过程是一种序列决策的过程:即智能主体在与环境的交互中需要进行一系列决策,而这些决策都是相互关联的。

4.强化学习往往都是奖励滞后的智能体采取一系列行动后,才能获得相应的奖励信号。(这种滞后性质使得智能体需要在没有及时反馈的情况下进行学习和决策,增加了学习的难度和不确定性。此外,由于奖励信号的滞后性,智能体往往需要长时间的探索和尝试,才能找到最佳策略,这也增加了学习的时间和计算成本。因此,解决奖励滞后问题是强化学习研究中的重要挑战之一)。

5.强化学习过程中往往基于采样来进行评估,智能体通过与环境交互来收集样本数据,从而对策略进行评估和改进。(与传统的监督学习不同,强化学习中没有标签信息,智能体需要通过与环境的交互来获取奖励信号,从而指导策略的学习和优化。因此,采样数据的质量和数量对于强化学习的效果至关重要。此外,由于强化学习中的数据是通过与环境的交互获得的,因此数据的采集是一个漫长的过程,需要进行大量的试错和探索。这也增加了强化学习的计算成本和学习时间。因此,如何高效地采样数据、利用有限的样本数据来评估和改进策略是强化学习研究中的重要问题之一)

认识强化学习

2.5强化学习示例

1.围棋AI(AlphaGO)

2.马尔可夫过程(Markov process)

经过以上介绍,相信你已经对强化学习有了基本的认识了,下节我们将一起学习强化学习的技术层。

本网站的内容主要来自互联网上的各种资源,仅供参考和信息分享之用,不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益,请联系我们,我们将尽快采取行动,包括删除或更正。
AI教程

机器学习算法梳理:三步学习法

2023-11-27 11:32:14

AI教程

NumPy Ndarray切片方法示例

2023-11-27 11:40:00

个人中心
购物车
优惠劵
今日签到
有新私信 私信列表
搜索