释放双眼，带上耳机，听听看~！

本文介绍了因果强化学习的概念、挑战和实际应用，以及当前的研究进展和方法分类，以帮助读者更好地理解和应用这一领域的知识。

0.综述信息和个人感想

因果强化学习：挑战与应用

最近看看因果强化学习的工作，希望能有一些灵感。为了快速快明白，采用通篇大部分翻译+个人理解的方式，希望能有所帮助。

1.介绍

强化学习 (RL) 是智能体学习策略 (从状态到动作的映射函数) 的通用框架，以最大化环境中的预期奖励。它试图通过试错方案来解决顺序决策问题，而智能体与环境交互。由于其在性能方面的显著成功，它已被迅速开发和部署在各种现实应用中，包括游戏、机器人控制和推荐系等，越来越受到不同学科研究人员的关注。

然而，强化学习存在一些关键挑战，仍然需要解决。例如，(i) 数据效率低下。以前的方法大多需要交互数据，而在现实场景中，例如在医学或医疗保健中，只有少量数据可用，主要是由于昂贵的、不道德或困难的收集程序。(ii) 缺乏可解释性。现有方法通常通过黑盒的深度神经网络形式化强化学习问题，将序列数据作为输入，将策略作为输出。他们很难揭示数据背后的状态、动作或奖励之间的内在关联，并提供策略锁对应的直觉。这样的挑战将阻碍其在工业中的实际应用。

有趣的是，使用因果关系可能在处理上述强化学习的挑战中发挥不可或缺的作用。因果关系考虑两个基本问题:(1) 因果关系的合理推断需要什么样的经验证据? 这种用证据揭示因果关系的过程简称为因果发现。(2) 给定关于一个现象的公认的因果信息，我们可以从这些信息中得出什么推论，如何推断? 这种推断因果效应或其他利益的过程称为因果推理。因果关系可以使智能体通过因果关系的阶梯进行干预或反事实推理，从而放宽对大量训练数据的要求；它还能够表征世界模型，潜在地为代理如何与环境相互作用提供可解释性。

在过去的几十年里，因果关系和强化学习都在理论和技术上取得了巨大的发展，而它们本可以相互协调地融合在一起。Bareinboim 将它们放在同一个概念和理论的保护伞下，开发了一个称为因果强化学习的统一框架，并提供了在线介绍教程；Lu 受当前医疗保健和医学发展的启发，将因果关系和强化学习结合起来，引入因果强化学习，并强调其潜在的适用性。近年来，人们提出了一系列与因果强化学习相关的研究，需要对其发展和应用进行全面的调查。因此，在本文中，我们专注于为读者提供关于因果强化学习的概念、类别和实际问题的良好知识。

虽然有一些相关的综述，如 Grimbly 等人对因果多智能体强化学习进行了调查；Bannon 等人在批强化学习中的因果效应估计和 off-policy 评估方面的研究，这里我们考虑案例，但不限于多智能体或 off-policy 评估案例。最近，Kaddour 等人在 arXiv 上上传了一篇关于因果机器学习的调查，其中包括因果强化学习的一章。他们根据因果关系可能带来好处的不同强化学习问题，总结了因果关系带来好处的方法，如因果老虎机、基于模型的强化学习、策略外策略评估等。这种分类方法可能不完整，从而遗漏了一些其他强化学习问题，例如多智能体强化学习。在本文中，我们只是完整地构建了这些因果强化学习方法的分类框架。我们这篇调查论文的贡献如下 :

我们正式定义了因果强化学习，据我们所知，我们第一次从因果关系的角度将现有的方法分为两类。第一类是基于先验的因果信息，通常这种方法假设环境或任务的因果结构是由专家给出的先验，而第二类是基于未知的因果信息，其中必须学习策略的相对因果信息。
我们对每个类别的当前方法进行了全面的回顾，并提供了系统的描述 (和示意图)。关于第一类，CRL 方法在策略学习中充分利用先验因果信息，以提高样本效率、因果解释或泛化能力。对于具有未知因果信息的 CRL，这些方法通常包括两个阶段：因果信息学习和策略学习，这两个阶段是迭代或依次进行的。
我们进一步分析和讨论了 CRL 的应用、评估指标、开源代码以及未来的方向。

2.预备知识

本文在此提供了强化学习和因果推断的一些基础知识，在此对于我不是很熟悉的部分进行回顾，同时对于剩下的概念和公式进行罗列 :

2.1 因果

2.1.1 定义和假设

定义 1 (因果结构模型 SCM)

定义 2 (Rubin 因果模型) : Rubin 因果模型涉及 ${Y_i,T_i,X_i}$ 的观测数据集，其中 $Y_i$ 表示单位 $i$ 的潜在结果； $Ti∈{0,1}T_iin{0,1}$ 表示是否接受治疗的指示变量； $X_i$ 是一组协变量。

Rubin 因果模型也被称为潜在结果框架或 Neyman-Rubin 潜在结果。由于一个单位不能同时接受不同的治疗，而只能一次接受一种治疗，因此不可能同时获得两种潜在的结果，必须估计缺失的结果。对于潜在的结果，Rubin 因果模型旨在估计治疗效果。

定义 3 (治疗效果) 我们将其指标进行罗列

平均治疗效应 (Average Treatment Effect, ATE)
$ATE = E [Y (T = 1) - Y (T = 0)]$
平均治疗组治疗效应 (Average Treatment effect on the Treated group, ATT)
$ATT = E [Y (T = 1) ∣ T = 1] - E [Y (T = 0) ∣ T = 1]$
条件平均治疗效应 (Conditional Average Treatment Effect, CATE)
$CATE = E [Y (T = 1) ∣ X = x] - E [Y (T = 0) ∣ X = x]$
个体治疗效应 (Individual Treatment Effect, ITE)
$operatorname{ITE}_i=Y_i(T=1)-Y_i(T=0) end{align}$

定义 4 (混杂因子 Confounder)

定义 5 (工具变量 Instrumental Variables, IVs)

定义 6 (条件独立)

定义 7 (后门 Back-Door) 对于有向无环图 (DAG) 中的有序变量对 $x_i,x_j)$ ，一组变量 $Z$ 满足后门准则，如果 : (i) 在 $Z$ 中没有节点是 $x_i$ 的后代；(ii) $Z$ 阻塞 $x_i$ 和 $x_j$ 之间包含指向 $x_i$ 的箭头的所有路径。同样，如果 $Y$ 和 $W$ 是 DAG 中两个不相交的节点子集，则如果 $Z$ 满足相对于任意一对 $x_i,x_j)$ 的准则 ( $xi∈Y,xj∈Wx_iinmathbf{Y},x_jinmathbf{W}$ )，则称 $Z$ 满足相对于 $(Y, W)$ 的后门准则。

定义 8 (前门 Front-Door) 一组变量 $Z$ 相对于一组有序变量 $x_i,x_j)$ 满足前门准则，如果 : (i) $Z$ 拦截了从 $x_i$ 到 $x_j$ 的所有有向路径；(ii) 从 $x_i$ 到 $Z$ 不存在后门路径；(iii) 从 $Z$ 到 $x_j$ 的所有后门路径都被 $x_i$ 阻塞。

因果强化学习：挑战与应用

图 1. 后门和前门标准的示例说明，其中未阴影变量被观察到，而阴影变量未被观察到。(b) 中的 $x_1$ 是一个潜在的混杂因素。

后门准则和前门准则是判断一组变量 $Z \subseteq X$ 是否足以估计因果效应 $P(xj∣xi)Pleft(x_j mid x_iright)$ 的两个简单图形检验，如图 1 所示，变量集 $Z={x3,x4}mathbf{Z}=left{x_3, x_4right}$ 满足后门准则，而 $Z={x2}mathbf{Z}=left{x_2right}$ 满足前门准则。

定义 9 (关联 (see))

定义 10 (干预 (do))

定义 11 (反事实 (imagine))

为了找到因果结构，通常会做出以下假设 1-3 :

假设 1 (因果马尔可夫假设 Causal Markov Assumption) 概率总体分布 $P$ 相对于因果图 (DAG) 是马尔可夫的一个充分必要条件是，每个变量独立于其父变量的所有非子代。

假设 2 (因果可信假设 Causal Faithfulness Assumption) 总体中的概率分布 $P$ 没有额外的条件独立关系，这些关系不是由因果图的数据分离引起的。

假设 3 (因果缺陷假设 Causal Sufficiency Assumption) 对于一组变量 $X$ ，没有隐藏的共同原因，即潜在混杂变量，这会导致 $X$ 中的多个变量。

假设 4-6 通常用于因果推理来估计治疗效果。

假设 4 (表单元处理值假设 Stable Unit Treatment Value Assumption) 任何给定单元的潜在结果不会随着分配给其他单元的处理而变化，并且对于每个单元，没有不同的处理版本，这会导致不同的潜在结果。

假设 5 (可忽略性 Ignorability) 给定背景协变量 $X$ ，治疗分配 $T$ 与潜在结果无关，即 $T ⊥ ⊥ Y (T = 0), Y (T = 1) ∣ X$ 。

假设 6 (积极性 Positive) 给定 $X$ 的任何值，治疗分配 $T$ 不确定:

$P (T = t ∣ X = x) > 0, \forall t and x$

2.1.2 因果发现

至于从数据中识别因果结构，传统的方法是使用干预措施、随机或对照实验，这在许多情况下过于昂贵、太耗时，甚至太不道德而无法进行。因此，从纯观测数据 (称为因果发现) 中发现因果信息引起了人们的广泛关注。大致有两种经典的因果发现方法 : 基于约束的方法和基于分数的方法。在 1990 年代初期，基于约束的方法利用条件独立关系在适当的假设下恢复观察到的变量之间的潜在因果结构。这种方法包括 PC 和 Fast Causal Inference (FCI)，它允许不同类型的数据分布和因果关系，并给出近似正确的结果。PC 算法假设底层因果图中没有潜在的混杂因素；而 FCI 能够处理具有潜在混杂因素的情况。然而，它们恢复的内容属于因果结构的等价类，其中包含多个 DAG 包含相同的条件独立关系。另一方面，基于分数的方法试图通过优化适当定义的评分函数来搜索等价类，如贝叶斯信息准则 (BIC)、广义评分函数等。他们输出一个或多个得分最高的候选因果图。一个众所周知的两阶段搜索过程是贪婪的等价搜索 (GES)，它直接在等价类空间上搜索。

为了区分等价类中的不同 DAG 并享受因果结构的独特可识别性，出现了基于约束函数因果模型的算法。这些算法假设数据生成机制，包括模型类或噪声分布 : 效应变量是直接原因和独立噪声的函数，如公式 $xi=fi(pai,ui),i=1,…,nx_i=f_ileft(p a_i, u_iright), i=1, ldots, n$ 所示，其中原因 $p a_i$ 与噪声 $u_i$ 无关。这导致了因果结构的独特可识别性，因为模型假设，例如 $p a_i$ 和 $u_i$ 之间的独立性，仅适用于真正的因果方向，而对错误的方向则被违背。这些约束函数因果模型的示例是线性非高斯非循环模型 (LiNGAM)、加性噪声模型 (ANM)、后非线性模型 (PNL) 等。

此外，有人指出，研究人员感兴趣的课题有许多重大但具有挑战性。例如，人们可能对时间序列数据的算法感兴趣。这些算法包括 tsFCI、SVARFCI、tsLiNGAM、LPCMCI 等。特别是，Granger 因果关系允许推断时间序列的因果结构，没有即时影响或潜在的混杂因素。它已经广泛应用于经济学预测。基于约束的异构/非平稳数据因果发现 (CD-NOD) 适用于底层生成过程跨域或随时间变化的情况。它揭示了因果框架和方向，并估计了变化的因果模块的低维表示。

2.1.3 因果推断

从数据中学习因果效应，最有效的方法也是进行随机实验，比较对照组和治疗组的差异。然而，由于成本高、实用性和伦理问题，其应用在很大程度上受到限制。因此，从观测数据估计治疗效果已引起越来越多的兴趣。

从观测数据中进行因果推断的困难在于混杂变量的存在，这导致 (i) 治疗组和对照组之间的选择偏差，以及 (ii) 虚假效应。这些问题会使治疗结果的估计性能变差。为了处理伪效果问题，一种代表性的方法是分层，也称为子分类或阻塞。这个想法是将整个组分成同质的子组，治疗组和对照组中的每个子组在某些协变量上具有相似的特征。为了克服选择偏差的挑战，一般有两种类型的因果推理方法。第一个目的是创建一个与被治疗组近似一致的伪组。这些方法包括样本重加权方法、匹配方法、基于树的方法、基于表示的方法等。其他类型的方法，如基于元学习的方法，首先在观测数据上训练结果估计模型，然后纠正由选择偏差引起的估计偏差。

上述因果推理方法依赖于假设 4-6 的满足。在实践中，这样的假设可能并不总是成立。例如，当潜在混杂因素存在时，假设 5 不成立，即 $T \neq ⊥ ⊥ Y (T = 0), Y (T = 1) ∣ X$ 。在这种情况下，一种解决方案是应用敏感性分析来研究推断如何随着给定的未测量混杂因素的不同程度而变化。敏感性分析通常通过不可识别分布 $P (Y (T = t) ∣ T = 1 - t, X)$ 与可识别分布 $P (Y (T = t) ∣ T = t, X)$ 之间的差异来量化不可测量的混杂或隐藏偏差。

$c_t(X) =mathbb{E}(Y(T=t) mid T=1-t, X)-mathbb{E}(Y(T=t) mid T=t, X) end{align}$

指定 $c_t(X)$ 的边界，可以获得结果 $E (Y (T = t))$ 的期望边界，其形式为不可识别的选择偏差。另一种可能的解决方案是充分利用工具变量 (IV) 回归方法和近因学习 (PCL) 方法。这些方法用于预测治疗或策略的因果效应，即使存在潜在混杂因素。值得注意的是，PCL 背后的直觉是构造两个条件独立的代理变量，以反映未观察到的混杂因素的影响。图 2 展示了工具变量和代理变量的示例。

因果强化学习：挑战与应用

图 2. 工具变量和代理变量的说明示例，其中非阴影的变量可以被观察到，而阴影的变量 $U$ 未被观察到。 $T$ 代表治疗， $Y$ 代表结果。在 (a) 子图中， $Z$ 为工具变量，(b) 子图中 ${Z, W}$ 为代理变量。

2.2 强化学习

2.2.1 定义

与有监督学习和无监督学习相比，强化学习具有两个关键组成部分的优势 : 最优控制和试错。基于最优控制问题，Richard Bellman 发展了一种动态规划方法，利用带有系统状态信息的值函数进行数学形式化。这样的值函数被称为Bellman方程，表示为:

$Vleft(s_tright)=rleft(s_tright)+gamma sum Pleft(s_{t+1} mid s_t, a_tright) cdot Vleft(s_{t+1}right) end{align}$

其中 $V(st)Vleft(s_tright)$ 是时刻 $t$ 状态 $s_t$ 的值函数， $s_{t+1}$ 是下一个状态， $r(s_t)$ 是奖励函数， $γ$ 是折现因子。 $P(st+1∣st,at)mathcal{P}left(s_{t+1} mid s_t, a_tright)$ 是给定当前状态 $s_t$ 和动作 $a_t$ 时， $s_{t+1}$ 的跃迁概率。通过互动学习是强化学习的本质。主体通过在状态 $s_t$ 采取行动与环境进行交互，一旦观察到其下一个状态 $s_{t+1}$ 和奖励 $r(s_t)$ ，它需要调整策略以争取最优收益。这种试错学习机制源于动物心理学，这意味着导致好结果的行为很可能被重复，而导致坏结果的行为则被减弱。

强化学习解决了在不同环境中从可用信息中学习策略的问题，包括多臂老虎机 (MultiArmed Bandits, MAB)、上下文老虎机 (Contextual Bandits, CB)、马尔可夫决策过程 (Markov Decision Process, MDP)、部分观察马尔可夫决策过程 (Partially Observed Markov Decision Process, POMDP)、模仿学习 (Imitation Learning, IL) 和动态治疗机制 (Dynamic Treatment Regime, DTR)。

定义 12 (马尔可夫决策过程 Markov Decision Process, MDP)

定义 13 (部分观察马尔可夫决策过程 Partially Observed Markov Decision Process, POMDP) 部分观察到的马尔可夫决策过程被定义为一个元组 $M = (S, A, O, P, R, E, γ)$ ，其中 $S, A, P, R, γ$ 与 MDP 中的相同。 $O$ 表示观测集 $s o \in O$ ，而 $E$ 是确定分布 $E(ot∣st)mathcal{E}left(o_t mid s_tright)$ 的发射函数。

定义 14 (多臂老虎机 MultiArmed Bandits, MAB) 一个K-臂老虎机问题被定义为一个元组 $M = (A, R)$ ，其中 $A$ 是玩家在第 $t$ 轮中从 K 个臂 $at∈A={a1,…,aK}a_t in mathcal{A}=left{a_1, ldots, a_Kright}$ , $R$ 是一组结果变量，表示奖励 $rt∈{0,1}r_t in{0,1}$ 。

注意，当在K-臂老虎机中存在未观察到的混杂因子时，模型将被建立并替换为 $M = (A, R, U)$ ，其中 $U$ 是未观察到的变量，它意味着在处选择臂 $a_t$ 的支付率和选择臂 $a_t$ 的倾向得分。

定义 15 (上下文老虎机 Contextual Bandits, CB) 上下文老虎机被定义为元组 $M = (X, A, R)$ ，其中 $A$ 和 $R$ 与多臂老虎机中定义相同。 $X$ 是一组上下文，即观察到的辅助信息。

定义 16 (模仿学习模型 Imitation Learning Model, IL) 模仿学习模型被定义为元组 $M = (O, T)$ ，其中 $O$ 表示可访问的高维观测 $o \in O$ ，而 $T$ 表示由专家策略 $pi_D(cdot mid o)$ 生成的轨迹。

定义 17 (动态治疗机制 Dynamic Treatment Regime, DTR) 动态处理机制被定义为一系列决策规则 ${πT:∀T∈T}left{pi_T: forall T in mathbf{T}right}$ ，其中 $T$ 是一组处理。每个 $πTpi_T$ 是从处理和协变量的历史 $H_T$ 的值到 $T$ 上的概率分布域的映射函数，用 $πT(T∣HT)pi_Tleft(T mid H_Tright)$ 表示。

2.2.2 无模型方法

无模型强化学习方法通常可以不可逆地访问世界模型，但直接且纯粹从与环境的交互中学习策略，类似于我们在现实世界中的行为。流行的方法包括基于策略的方法、基于价值的方法和行为批评的方法。

基于策略的方法通过策略参数 $θ$ 直接学习最优策略 $π∗pi^*$ ，以最大化累积奖励。他们基本上采用了最佳策略梯度定理来推导 $θ$ 。经典的方法有信赖域策略优化 (Trust Region Policy Optimization, TRPO)、近端策略优化 (Proximal Policy Optimization, PPO) 等，它们使用函数近似自适应或人工调整超参数来加速方法的收敛。

在基于值的方法中，代理更新值函数以获得最优值 $Q^*(s, a)$ ，从而隐式获得策略。Q学习、状态-行动-奖励-状态-行动 (Sarsa) 和深度 Q 学习网络 (DQN) 是典型的基于价值的方法。Q 学习和 Sarsa 的更新规则涉及学习率 $a lp ha$ 和时间差误差 $δtdelta_t$ :

$Qleft(s_t, a_tright)=Qleft(s_t, a_tright)+alpha delta_t end{align}$

其中，在非策略 Q 学习中， $δt=rt+1+γmax⁡at+1Q(st+1,at+1)−Q(st,at)delta_t=r_{t+1}+gamma max _{a_{t+1}} Qleft(s_{t+1}, a_{t+1}right)-Qleft(s_t, a_tright)$ ，而在策略 Sarsa 中， $δt=rt+1+γQ(st+1,at+1)−Q(st,at)delta_t=r_{t+1}+gamma Qleft(s_{t+1}, a_{t+1}right)-Qleft(s_t, a_tright)$ 。然而，它只能处理离散的状态和动作。具有深度学习的 DQN 通过神经网络表征价值或策略，从而能够处理连续的状态或动作。它通过经验回放和冻结目标网络来稳定 Q 函数学习。DQN 的改进形式有 Double DQN、Dueling DQN 等。

演员-评论家方法 (Actor-Critic) 结合了基于策略和基于价值的方法的网络优点，其中演员网络源自基于策略的方法，而评论家网络源自基于价值的方法。演员-评论家的主体框架由两部分组成 : (1) 演员 : 基于状态 $s_t$ 输出最佳行动 $a_t$ ，通过学习最优策略来控制主体的行为；(2) 评论家 : 计算行动的 Q 值，从而实现对策略的评估。典型的方法包括Advantage actor-critic (A2C)、Asynchronous Advantage actor-critic (A3C)、Soft actor-critical (SAC)、Deep Deterministic Policy Gradient (DDPG) 等。特别是 SAC 引入了最大熵项，以提高主体对随机策略训练过程的探索性和稳定性；DDPG 将神经网络应用于高维视觉状态空间。它包括确定性策略梯度 (DPG) 和 DQN 方法，分别作为演员和评论家的角色，缓解了高偏差和高方差问题。

2.2.3 基于模型的方法

在不直接与环境交互的情况下，基于模型的强化学习方法主要利用学习或给定的世界模型来模拟转换，从而有效地优化目标策略。这与人类在脑海中的想象方式相似。我们在这里根据模型的使用方式介绍了一些常见的基于模型的强化学习算法，即用于轨迹采样的黑盒模型和用于梯度传播的白盒模型。

使用可用的黑盒模型直接应用于策略学习的方法是在该模型中进行规划。这些方法包括蒙特卡罗 (MC)、带有轨迹采样的概率集成 (PETS)、蒙特卡罗树搜索 (MCTS) 等。MCTS 是 MC 的扩展采样方法，通过树搜索来确定每个时间步中高概率过渡到高价值状态的动作。它已成功应用于 AlphaGo 和 AlphaGo Zero，挑战职业围棋选手。另一方面，可以用模型生成模拟样本，加速策略学习或价值近似，这被称为 Dyna-风格的方法。在 Dyna 中，模型充当生成增强数据的经验生成器的角色。例如，模型集成信任区域策略优化 (ME-TRPO) 利用收集的数据学习一组动态模型，并使用这些模型生成虚拟体验。然后，它使用 TRPO 无模型算法，通过集成模型中的增强数据更新策略。基于模型的策略优化 (MBPO) 使用策略和学习模型对分支进行采样，并利用 SAC 算法使用增强数据进一步学习最优策略。
利用白盒动力学模型，可以通过内部结构生成动力学的梯度，以便于策略学习。一些典型的方法包括引导策略搜索 (GPS)、学习控制的概率推理 (PILCO) 等。GPS利用路径优化技术指导训练过程，提高效率。它通过迭代线性二次调节器 (iLQR) 提取样本，用于初始化神经网络策略并进一步更新策略。PILCO 假设动态模型为高斯过程。通过学习这样的动态模型，PILCO使用近似推理来评估策略，并获得用于策略改进的策略梯度。在现实世界的应用中，离线强化学习通常很重要，其中代理必须仅从离线体验数据集中学习令人满意的策略，而无需与环境进行交互。离线强化学习面临一个关键挑战，即分布转移问题，即由于训练数据的行为策略与当前学习策略之间的差异。为了克服分布转移问题，提出了一种基于模型的离线策略优化 (MOPO) 算法。MOPO基于学习模型推导出策略价值下限，并试图通过动态的不确定性来惩罚奖励。

因果强化学习

由于因果关系和强化学习的直接联系，研究人员需要探索如何有效地将它们结合起来，以应用于政策学习或因果关系任务。这种结合被称为因果强化学习 (Causal Reinforcement Learning，CRL)，其定义如下：

定义 18 (因果强化学习，CRL) : CRL是一组算法，旨在将因果知识嵌入到强化学习中，以实现更高效的模型学习、策略评估或策略优化。它被形式化为元组 $(M, G)$ ，其中 $M$ 表示强化学习模型设置，例如 MDP、POMDP、MAB等，而 $G$ 表示关于环境或任务的因果信息，例如因果结构、因果表示或特征、潜在混淆因素等。

根据因果信息是经验给定的还是需要通过技术学习的，因果强化学习的方法可以大致分为两类：(i) 基于给定或假设的因果信息 (即因果先验知识) 的方法；以及 (ii) 基于必须通过技术学习来获取未知因果信息的方法。这些因果信息包括因果结构、因果表示或特征、潜在混淆因素等。

3.具有先验原因信息的 CRL

在这里，我们回顾了因果强化学习 (CRL) 方法，其中因果信息已知 (或给定先验)，无论是明确地还是隐含地。一般而言，这些方法假设关于环境或任务的因果结构已经被专家事先确定，其中可能包括潜在因素的数量、潜在混淆因子的位置以及它们如何影响其他观测到的变量。对于潜在混淆因子的情况，大多数方法考虑通过适当的技术消除对策略的混淆偏差，同时使用强化学习方法学习最优策略。他们还可以在理论上证明策略实现策略评估的最坏情况下的界限。对于非混淆因果场景，他们利用先验的因果知识来提高样本效率，在策略学习中进行因果解释或推广。在现代强化学习过程中或之前，这些方法通过因果机制进行数据增强，通过因果信息缩小搜索空间，或偏好于具有因果影响的情况。

我们根据不同的模型设置总结了这些 CRL 方法，即 MDP、POMDP、Bandits、DTR 和 IL。

Models	Algorithms
MDP	IVOPE, IV-SGD and IV-Q-Learning, IVVI, CausalDyna, CTRL $_g$ and CTRL $_p$ , IAEM, MORMAXC, DOVI, FQE, COPE, off_policy_confounding, RIA, etc.
POMDP	CF-GPS, Gumbel-Max SCMs, CFPT, Decoupled POMDPs, PCI, partial history weighting, COMA, influence MOA, CCM, Confounded-POMDP, etc.
Bandits	Causal TS, DFPV, TS $^{RDC*}$ , SRIS, Causal Bandit, C-UCB and C-TS, UCB+IPSW, B-kl-UCB and B-TS, POMIS, Unc_CCB, OptZ, CRLogit, etc.
DTR	OFU-DTR and PS-DTR, UC $^c$ -DTR, CAUSAL-TS*, IV-optimal and IV-improved DTRs, etc.
IL	CI, exact linear transfer method, Sequential $π$ -Backdoor, CTS, DoubIL and ResiduIL, MDCE-IRL and MACE-IRL, etc.

表 1. 具有已知因果信息的部分CRL算法

3.1 MDP

因果强化学习：挑战与应用

图 3. 混杂 MDP 的因果图形说明示例，其中 ${z_h}$ 是工具变量序列， ${e_h}$ 是未观察到的混杂因素序列， $x_h$ 是第 $h$ 个时间步长的当前状态变量。

因果强化学习：挑战与应用

图 4. 离线和在线环境中混杂 MDP 的因果图形说明示例，其中 ${w_h}$ 是第 $h$ 个时间步长的一系列未观察到的混杂因素。

以数字广告为例，Li 等人展示了策略中存在的强化偏差，并且在与环境的交互中可能会放大。为了在理论和实践上纠正偏差，他们在两时间尺度随机逼近框架下提出了一类基于工具变量的强化学习方法，其中包括随机梯度下降例程和 Q-learning 算法等。他们考虑了噪声可能与状态或动作相关的 MDP 环境，并基于此构建了工具变量。工具变量规定了状态相关决策。他们使用工具变量 (IVs) 学习策略的因果效应，基于给定的因果结构，从而去偏真实奖励并学习最优策略。Liao 等人侧重于中混淆因子 $u_t$ 在时间 $t$ 影响动作 $a_t$ 和状态 $s_{t+1}$ 的情况，如图 3 所示，构建了一个考虑工具变量和未观察到的混淆因子 (UCs) 的混淆 MDP 模型，即 CMDP-IV。他们通过获得条件矩限制，确定了在加性 UCs 假设下的混淆非线性转移动态。通过对这种条件矩限制进行原始-对偶形式化，最终提出了一种工具变量-辅助的值迭代 (IVVI) 算法来学习离线强化学习中的最优策略。Zhang 等人研究了在存在未观察到的混淆因子的情况下估计 MDP 的问题。如果忽略这样的混淆因子，可能得到次优策略。因此，他们利用因果语言对问题进行形式化，并明确展示了两类策略 (实验策略和反事实策略)。在证明了反事实策略优于实验策略后，他们限制标准 MDP 方法在反事实策略空间中搜索，速度和收敛性比现有算法更强。Wang 等人研究了在离线数据集中构建信息增益以提高在线环境中的样本效率的问题。因此，他们提出了一种去混淆乐观值迭代算法 (DOVI)。如图 4 所示，在离线环境中，他们假设混淆因子部分被观察到，其混淆偏差可以通过背门准则进行校正；而在在线环境中，他们假设混淆因子未被观察到，其混淆偏差可以通过前门调整通过中间状态进行校正。最终，他们给出了他们提议的遗憾分析。

为了处理数据稀缺和机制异质性的问题，Lu 等人提出了一种高效的样本强化学习算法，利用结构因果模型 (SCMs) 来建模状态动态过程，并旨在生成适用于整体人群的通用策略以及适用于每个个体的个性化策略。特别是对于通用策略，基于 MDP 中的因果结构，他们假设状态变量 $s_{t+1}$ 满足 SCM，

$s_{t+1}=fleft(s_t, a_t, u_{t+1}right) end{align}$

其中， $f$ 是表示从原因到 $s_{t+1}$ 的因果机制的函数， $a_t$ 是时间 $t$ 的动作， $u_{t+1}$ 代表 $s_{t+1}$ 的噪声项。至于个体的个性化策略，他们假设状态变量 $s_{t+1}$ 满足 SCM，

$s_{t+1}=fleft(s_t, a_t, theta_c, u_{t+1}right) end{align}$

其中 $f$ 表示整体因果机制的集合， $θctheta_c$ 捕捉可能在个体之间变化的变化因素。基于这两个状态转移过程，他们采用双向条件生成对抗网络框架来估计 $f,ut+1,θcf,u_{t+1},theta_c$ 。通过进行反事实推理，缓解了数据稀缺问题。Zhu 等人采用了基于 SCMs 的反事实推理相同的思想来提高样本效率。他们将时间不变属性 (例如机器人操作中的物体质量) 建模为影响所有时间步状态变量的观察混淆因子，并提出了一种 Dyna-风格的因果强化学习算法。Feliciano 等人在追求目标的 MDP 模型的基础上，通过因果知识学习策略加速了探索和利用学习过程。假设存在可能不完整或部分正确的因果图，他们通过图查询缩小了动作的搜索空间，并开发了一种引导动作选择策略的方法。为了高效地执行强化学习任务，Lu 等人研究了因果MDP，其中干预、状态/奖励构成了一个三层因果图。状态或奖励 (结果) 位于顶层，结果的父节点位于中间层，而直接干预 (可操作) 位于底层。然后在给定这样的先验因果知识的情况下，他们提出了因果上置信界值迭代 (C-UCBVI) 算法和因果分解上置信界值 (CF-UCBVI) 算法，以避免动作或状态的维度灾难。最后，他们证明了验证的遗憾界限。

关于系统决策解释的加速，Madumal 等人采用因果模型推导出无模型强化学习代理行为的因果解释。具体而言，他们引入了一个行动影响模型，其中结构因果图中的变量不仅是状态，还包括行动。他们假设给定了一个具有因果方向的有向无环图 (DAG) 先验，并提出了一种学习这样的结构因果模型的方法，以生成对于 “为什么” 和 “为什么不” 问题的对比解释。最后，他们能够通过反事实推理解释新事件发生的原因。关于数据效率和泛化问题，Zhu 等人引入了状态之间行动效应的不变性，灵感来自于同一行动在不同状态转换中可能具有类似的效果。利用这种不变性，他们提出了一种基于动力学的方法，称为 IAEM (不变行动效应模型) 进行泛化。具体而言，他们首先将不变性描述为相邻状态表示之间的残差。然后，他们应用对比损失和自适应加权策略，更好地估计这些不变性表示。Guo 等人提出了一种关系干预 MBRL 方法，以泛化到动力学未知的环境，其中引入了一个在环境之间发生变化的潜在因子，用于描述转换动力学的变化。这样的因子是从历史转换片段中提取的。在给定因果图的情况下，他们引入干预预测模块和关系头部，以减少因子中的冗余信息。

在不确定性下，针对顺序决策策略的离线策略评估 (Off-Policy Evaluation, OPE) 是批处理强化学习中的一个基础且必要的问题。然而，该领域存在一些挑战，包括混淆的数据等。数据中的混淆因素会导致对新策略的评估变得无法识别。为了处理这个问题，Kallus 等人在具有混淆因素的无限时间序列强化学习设置中，探索了离线策略评估的部分识别方法。具体而言，他们首先假设未观测到的混淆因素的稳态分布，并针对数据进行敏感性建模。在他们满足的因果模型中，时间步 $t$ 的混淆因素 $u_t$ 会影响到动作 $a_t$ 和状态 $s_{t+1}$ 。他们通过表征和优化部分识别集合来计算策略价值的最严格的界限。最终，他们证明了他们提出的近似方法在实践中是一致的，并能建立边界。在每个时间步 $t$ 上，观察到的动作 $a_t$ 、状态 $s_{t+1}$ 和奖励 $r_t$ 受到独立同分布的观测变量 $u_t$ 的混淆。Bennett 等人提出了一种离线策略评估方法，在无限时间序列设置中，估计存在未观测混淆因素的状态的稳态分布比率，并避免直接对奖励函数建模。他们证明了混淆模型的可识别性，并在一些假设下给出了统计一致性和误差界限。当遇到未观测混淆时，Namkoong 等人分析了顺序决策问题中离线策略评估方法的敏感性，并证明即使有少量混淆也可能引起严重的偏差。因此，他们提出了一个框架来量化未观测混淆的影响，并计算最坏情况下的界限，将混淆限制在单个时间步骤中，即混淆因素可能只直接影响其中一个决策，并进一步影响未来的奖励或动作。使用基于损失最小化的高效优化方法估计了预期累积奖励的界限，并具有统计一致性。之前的方法都采用了重要性采样方法来计算新策略的最坏情况下的界限。尽管 Kallus 等人构建了无限时间情况下的界限，Namkoong 等人推导了在单个时间步骤中具有限制混淆的最坏情况下的界限，但他们无法处理每个步骤中存在混淆的有限情况。为了克服这个挑战，Bruns 开发了一种基于模型的鲁棒 MDP 方法，以计算带有每个周期独立同分布混淆因素的有限时间界限，并结合敏感性分析。如果混淆因素持续可用，离线策略评估将变得更加具有挑战性。最近的 MDP 或 POMDP 模型中的离线策略评估方法没有考虑到在无限时间情况下估计目标策略值的置信区间的情况。Shi 等人特别关注了这种情况。他们基于混淆的 MDP 模型和一些观测到的即时变量，对数据生成过程进行建模，并将其命名为 CMDPWM (具有中介变量的混淆 MDP) 。通过中介变量，目标策略的价值被证明是可识别的。他们提供了一种稳健地估计离线策略值的算法。他们的方法帮助共享出行公司解决了评估可能包含潜在混淆因素的不同客户推荐方案的问题。如果在最小化贝尔曼误差时忽略混淆因素，可能会得到有偏差的 Q 函数估计。Chen 等人在 OPE 的语境中同时利用了工具变量 (IV) 和强化学习，提出了一类居于工具变量的方法来克服这些混淆因素，并实现对策略价值的识别。他们在带有一组 OPE 基准问题和各种工具变量比较的 MDP 环境中进行了实验。

3.2 POMDP

因果强化学习：挑战与应用

图 5. 一个具有未观测的混杂因素的 MDP 因果图形说明的例子，其中 $U$ 是混杂因素。行为策略、状态转移和奖励排放在每一步都会受到混杂影响。

因果强化学习：挑战与应用

图 6. POMDP 因果图形说明示例，其中 $U$ 是噪声变量， $H_t$ 是历史。生成动作 $A_t$ 的机制依赖于历史 $H_t$ 。

为了减少模型与真实环境之间的不匹配，并提高样本效率，Buesing 等人利用反事实推理提出了 Counterfactually-Guided Policy Search (CFGPS) 算法，用于从离线经验中学习 POMDP 中的策略。他们首先使用 SCM 表示对 POMDP 进行建模，如图 6 所示，并展示了如何使用给定的结构因果模型对个别离线策略进行反事实评估。此外，利用可用的记录经验数据，他们通过 SCM 中的反事实分析对策略搜索案例进行了概括。在这里，他们假设转移函数是确定性的。为了将反事实推理从确定性转移函数扩展到随机转移，Oberst 等人进一步假设了特定SCM，即 Gumbel-Max SCM，并提出了一种通过分类分布中的反事实查询进行离线策略评估的方法。特别地，这类给定的 SCM 能够在有限 POMDP 中生成反事实轨迹。他们确定了奖励中反事实差异最显著的轨迹，可用于由领域专家审查。假设 POMDP 遵循特定的 Gumbel-Max SCM，Killian 等人提出了一种 Counterfactually Guided Policy Transfer 算法，用于实现从源域到目标域的策略转移，离线、离策略的临床设置。直观地说，他们利用源域中观察到的转移概率和训练的治疗策略来辅助引导目标域中的反事实采样。Tennenholtz 等人没有使用反事实分析，而是选择了对世界上不同行动和评估策略的干预效果的最佳组合，用于完成顺序决策的离线评估。他们的工作主要基于 POMDP，特别是 Decoupled POMDPs，其中状态变量被分为两个不相交的集合，即观察到的变量和未观察到的变量。他们证明了这种分离的新模型可以减少来自一般 POMDP 的估计偏差。然而，他们的方法仅适用于状态和动作离散的表格设置。

因果强化学习：挑战与应用

图 6. 在记录策略和评估策略下，POMDP 的因果图示例如下 : 红色箭头表示策略行动 $A_t$ 和状态 $S_t$ 之间的依赖关系 (在(a)中) ，而在(b)中，红色箭头表示策略行动 $A_t$ 与观测值 $O_t$ 以及先前轨迹 $τttau_t$ 之间的依赖关系。蓝色箭头表示观测轨迹的依赖关系。使用 POMDP 的随机记录策略生成真实轨迹，而评估策略表示需要评估的确定性目标策略。

为了将该工作推广到非表格设置，Bennett 等人和 Shi 等人也在POMDP模型下实现了 OPE 任务，即在由某个行为策略生成的观测数据中评估 POMDP 中的目标策略。Bennett 等人将近端因果推断 (PCI) 方法应用于顺序决策设置。特别地，他们在记录策略和评估策略下对 POMDP 模型进行了图形化表示。基于图 7 中所示的图形，在关于独立性约束和桥接函数的一些假设下，他们提供了通过 PCI 评估目标策略的识别结果。最后，他们建立了一个评估器。另一方面，Shi 等人推导出了在存在潜在混淆因素的 POMDP 模型中进行 OPE 的识别方法，其中行为策略依赖于未观察到的状态变量，而评估策略仅依赖于可观察的观测值。他们的方法基于权重桥接函数和值桥接函数。随后，他们提出了极小极大估计方法来学习这两个桥接函数，采用了函数逼近技术。他们进一步提出了三个估计器来学习目标策略的值，基于值函数、边际重要性采样和双重稳健性。他们的提议适用于连续或大型观测 / 状态空间的设置。

Nair 等人也关注了 POMDP 中的 OPE 问题，与之前方法相同。但是，与之前依赖于某些一步矩阵的可逆性的方法不同，受到谱学习的启发，他们通过过去和未来的多步代理，放松了这样一个假设。他们开发了一种重要性采样算法，该算法依赖于概率矩阵的秩条件，而不依赖于可观测轨迹的充分条件。他们的方法在具有混淆因素的代理中使用各种因果结构进行执行。上述工作尝试在 POMDP 模型的背景下纠正混淆偏差，而 Hu 等人则在没有混淆的情况下进行研究。他们提出了一种 OPE 方法，通过使用部分历史重要性加权技术，在 POMDP 模型中识别目标策略的因果效应。他们进一步建立了估计值与真实值之间误差的上下界。

在合作多智能体设置中，先前的方法面临着分散的策略学习和多智能体信用分配问题。为了克服这些挑战，Foerster 等人提出了一种基于 POMDP 模型的多智能体演员-评论家算法，称为反事实多智能体 (Counterfactual Multi-Agent, COMA) 策略梯度算法，其中还引入了一个代表多个智能体的元素。具体而言，COMA 主要具有三个优点。首先，他们利用集中式评论家估计分散策略的反事实优势。其次，他们通过反事实基准解决了信用分配问题，该基准使得在保持其他所有智能体的行动不变的同时，可以对单个智能体的行动进行边际化。最后，他们的评论家表示允许有效地估计反事实基准。与依赖于集中式学习的方法不同，Jaques 等人探索了一个更加现实的方案，其中每个智能体都是独立训练的。具体而言，他们关注于在多智能体强化学习环境中实现协调和通信的目标。他们的直观想法是对那些对其他智能体行动具有高因果影响的智能体进行内在奖励，而因果影响是通过反事实分析来评估的。他们在两个顺序社交困境 (SSD) 上进行了大量实验，这些困境是部分可观测的、在空间和时间上扩展的多智能体游戏，并展示了他们提出的带有通信协议的社交影响奖励的可行性。他们还培养了对其他智能体建模的能力，使每个智能体能够以分散的方式独立计算其社交影响，即无需访问其他智能体的奖励函数。Barton 等人通过收敛交叉映射 (CCM) 测量了智能体之间的协作关系，该方法通过检查捕食者智能体随时间变化的位置来评估因果影响。

参考资料 (References)

A Survey on Causal Reinforcement Learning

本网站的内容主要来自互联网上的各种资源，仅供参考和信息分享之用，不代表本网站拥有相关版权或知识产权。如您认为内容侵犯您的权益，请联系我们，我们将尽快采取行动，包括删除或更正。

{{userData.name}}已认证

因果强化学习：挑战与应用

0.综述信息和个人感想

1.介绍

2.预备知识