type
Post
status
Published
date
May 14, 2026
slug
summary
tags
强化学习
category
AI
icon
password
马尔可夫奖励过程
某个状态的回报
其中,T是最终时刻, 是折扣因子,越往后折扣越多所以 其实不是某个特定的值?只是一个随机变量吧如果对这个随机变量取期望,就能得到某个状态的价值了,称为状态价值函数
表示当前是第几个时间步, 表示该时间步所处的具体状态,并且我们要注意,其实T也是一个参数,因为即使,相同,剩余步数不同也会导致回报的期望不同
贝尔曼方程
我们有了某个状态下某个轨迹的实际回报,如何计算他的价值函数呢?把全部轨迹生成出来然后取平均吗?这是蒙特卡洛方法,我们介绍另一种方法,贝尔曼方程
首先单独拿出来一个即时奖励 , 表示到达当前状态获得的那一份奖励所以 可以拆成即时奖励和后续奖励,后续奖励其实就是当前状态的下一状态的所有价值的期望。怎么又变成期望了?哪里来的随机?随机性其实是因为我们不确定下一状态是谁,因此只能根据下一状态的分布来求价值函数的期望。所以我们得到
注意未来的奖励要带折扣
正式推导之前,需要使用一个公式
这个公式我就不证明了
现在推导贝尔曼方程:
总结起来就是
但是这个是解析解,需要矩阵求逆,因此一般适用于小规模的数据
对于大规模的数据,一般有两种方法,一种是蒙特卡洛方法,一种是动态规划的自举方案
蒙特卡洛方法就是多次采样然后求平均嘛,比如对于状态 ,我们可以从他开始随机产生很多轨迹,然后进行action,得到很多奖励,再对这些奖励按照路径数量取平均值
第二种方法:
这种方法有点儿像路由算法,每个节点都维护一个观测数据,然后大家一起收敛
首先对所有节点的 都设置初始值,然后对所有节点根据
这个公式更新一次自己的数据,然后再更新,一直更新。。。。。。直到某次更新时发现老的值和新的值差距很小时就停止更新,算法结束
马尔可夫决策过程
马尔可夫决策过程相比马尔可夫过程,多了一个决策环节, 要从一个状态跳转到另一个状态,必须由环境和决策共同决定:
,其中 描述了在某个状态下,选择各个action的概率如果我们对a求和,就能得到
, 是指在状态 s 下执行动作 a 后,环境转移到状态 s′ 的概率对于奖励,我们可以得到:
表示在状态 s 下执行动作 a 后,环境立即给出的确定性奖励 (如果没有a,那么其实就表示到达状态s就给奖励了)马尔可夫决策过程里面的状态转移与马尔可夫奖励过程以及马尔可夫过程的状态转移的差异如图所示。马尔可夫过程/马尔可夫奖励过程的状态转移是直接决定的。比如当前状态是 s,那么直接通过转移概率决定下一个状态是什么。但对于马尔可夫决策过程,它的中间多了一层动作 a ,即智能体在当前状态的时候,首先要决定采取某一种动作,这样我们会到达某一个黑色的节点。到达这个黑色的节点后,因为有一定的不确定性,所以当智能体当前状态以及智能体当前采取的动作决定过后,智能体进入未来的状态其实也是一个概率分布。在当前状态与未来状态转移过程中多了一层决策性,这是马尔可夫决策过程与之前的马尔可夫过程/马尔可夫奖励过程很不同的一点。在马尔可夫决策过程中,动作是由智能体决定的,智能体会采取动作来决定未来的状态转移。

markov
MDP 中策略相关概率与奖励公式的 Q&AQ1:公式是正确的吗?为什么右边还要保留动作 ?
✅ 正确。动作 不能省略,因为环境的下一状态分布 依赖于具体执行的动作。策略 只负责选择动作,但选完之后环境如何转移仍然由 决定。求和的意义正是:对所有可能的动作按策略概率加权平均,得到在策略下的边缘转移概率。
Q2:那 这种写法对吗?
❌ 不对。左边是边缘概率(已对动作求和),右边却保留了一个具体的 ,且 没有体现对动作的依赖。如果想表达“选择特定动作 并转移到 ”的联合概率,应写作 。
Q3:
是什么意思? 它表示在策略 下,从状态 出发能获得的即时奖励的期望值。其中 是环境给出的期望奖励(通常是一个固定函数), 是策略选择动作的概率,加权求和即得平均奖励。
Q4:那 是什么?能否写成 **?
在一般 MDP 中, 没有标准定义。如果强行这样写,只有当奖励与动作无关(即 对所有 成立)时才成立,此时 。但在一般情况下,奖励依赖于动作,且 会随策略变化,因此不建议用 表示这个依赖于策略的量。更清晰的写法是直接用 ,避免混淆。
Q函数的引入
在考虑到决策对整个路径的影响之后,原本我们的状态价值函数
就不好用了,因为这里面压根没有决策,因此我们需要一个新的函数来方便我们处理考虑了决策的状态价值函数 既然V是G的期望版本,那么我们不如从G下手,把G改造成考虑了决策的版本,于是我们得到了Q(动作价值函数)
注意一下,这里的求期望是因为G本身就是一个随机变量,因为未来路径的不确定导致了会有很多条奖励路径,每个路径都有自己的总奖励值( ),因此我们需要对G求期望,才能得到能够代表当前状态和决策下的奖励
在得到动作价值函数之后,我们成功地把状态价值函数 按照决策拆成了多个部分 ,如果我们把 按照概率重新加权求和,不就能得到V和Q的关系了吗,于是:
不过Q也是能继续推推导的,就能得到更方便的计算方法:
所以其实
,只需要把按照策略加权求和写成期望的形式,再把其中的a和 抵消掉,就能整理出来,其实也可以从另一个角度理解,直接理解成当前奖励加后续状态价值也可以类似的思路,我们也可以得到:
,这里也能看出Q和V的区别,Q需要把策略a显式地拿出来讨论。