Sequential memory improves sample and memory efficiency in Episodic Control

2025-01-31

Word count: 1.3k | Reading time≈ 4 min

一、知识点

深度强化学习（Deep Reinforcement Learning, DRL）：
- DRL结合了深度学习的表征能力和强化学习的决策能力，旨在通过与环境交互来学习最优策略。
- 样本效率低下是DRL的一个主要问题，通常需要大量数据才能达到最优性能。
记忆增强：
- 为了解决DRL的样本效率低下问题，研究者提出了使用扩展记忆系统的方法，以利用过去的经验。
- 记忆增强技术通常作为缓冲区使用，从中重新采样孤立事件以供离线学习。
- 通过扩展记忆系统或利用过去获得更高奖励的经验进行值传播的方法，可以提高学习效率。例如，EMDQN通过并行设置一个记忆缓冲区来提高奖励传播的速度和样本效率。EBU模型则在采样完整的一集后，将状态的价值传播到之前的状态。
情景强化学习（Episodic Reinforcement Learning, ERL）：
- ERL是一种通过存储和检索过去成功经历来快速学习最优策略的强化学习方法。
- 它受到哺乳动物海马体的启发，并尝试通过实例学习来提高样本效率。
马尔可夫决策过程（MDP）模型：
- MDP在决策制定和优化问题中表现出了强大的能力，但它也存在一些局限性。例如，MDP假设未来状态仅与当前状态和所采取的动作有关，而与过去的历史状态无关。这在实际应用中可能并不总是成立，因为某些系统的未来状态可能受到过去历史状态的影响。此外，MDP的状态和动作空间可能非常大，导致求解过程变得非常复杂和耗时。为了克服这些局限性，研究人员正在探索一些改进方向，例如部分可观察马尔可夫决策过程（POMDP）和深度强化学习等
Q学习（Q-learning）：
- 一种强化学习算法，用于学习行动价值函数，即在给定状态下采取特定行动的预期回报。
SEC与ERLAM的主要区别:
- 后者基于存储经验的状态转换构建图，以启动参数化RL代理的学习，而SEC则以顺序目标导向的方式存储记忆，保留动作的时间结构，并直接使用这个记忆缓冲区进行动作选择和控制
DAC理论：
- DAC（Dynamic Adaptive Control）理论认为大脑是一个多层次的控制系统，包含反应性预设行为、适应性状态空间编码和情境决策。

二、方法

行动选择算法：
1. 初始化：在每个新的episodes开始时，初始化一个空的短期记忆（STM）。
2. 环境交互：在每个时间步t，从环境中接收观察结果ot 。
3. 状态编码：通过自编码器将观察结果ot编码为状态st，即st = ϕ(ot) 。
4. 记忆检索：使用公式1和公式4检索与当前状态st相关的记忆，并估计每个动作a的回报。
5. 动作选择：根据动作价值函数QaϵA(st)选择动作at，即at ← π(QaϵA(st)) 。
6. 执行动作并接收奖励：执行动作at，并从环境中接收奖励rt+1 。
7. 更新短期记忆：将状态-动作对(st, at)添加到STM中。
8. 时间步增加：时间步t增加1 。
9. 循环继续：如果rt = 0，则继续循环；否则，将STM的内容和奖励rt转移到长期记忆（LTM）中。
10. 结束条件：如果达到最大时间步数T或奖励rt > 0，则结束当前episodes 。
11. 重复执行：对每个episodes重复上述步骤。
奖励函数：

其中动作值函数Qπ(s, a)被定义为在遵循策略π(st, at)并采取动作at后，从状态st开始的预期折现回报Rt的期望值。
预期折现回报公式：

$$
Rt = \sum_{k=0}^{T} \gamma^k r_{t+k}
$$
其中，T是回合的长度，γ是折扣因子，取值范围在(0, 1]之间，rt+k是在时间t+k时获得的奖励。此外，文档还提到了在SEC模型中，动作值函数是基于三个因素计算的：感知相似度、序列偏差和折现奖励值。

顺序情节控制架构

SEC可以分为三个层次：反应层、自适应层和情境层。反应层（绿色）实现了一个预定义的随机探索算法。自适应层（蓝色）通过卷积自编码器获取世界的状况，而情境层（红色）整合了一个短期和长期的情节记忆缓冲区以及一个行动选择算法。

SEC结构

遗忘机制：
在模型的长期记忆（LTM）中引入了两种遗忘机制：

遗忘机制	工作方式	作用
FIFO遗忘	先进先出，最早的记忆被移除，类似于SEC短期记忆（STM）的更新机制	保持最新记忆，节约空间以优化性能
基于奖励的优先遗忘	优先保留高奖励记忆，遗忘低奖励记忆	有助于模型保持对高回报经验的记忆，从而在决策时能够利用这些经验

Donate

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.