NAVGPT

2025-05-12

Word count: 1.6k | Reading time≈ 5 min

NavGPT 方法介绍及公式

方法概述：
NavGPT 是一个创新的视觉与语言导航（VLN）系统，它充分利用大型语言模型（LLMs）的推理能力，通过零样本学习的方式，将视觉观察、导航历史和未来可探索方向转化为自然语言描述，作为LLMs的输入，以推理智能体的当前状态并做出决策。^[1]^NavGPT 的核心在于其能够生成明确的推理过程，展示其决策背后的逻辑。^[2]^

关键组件与步骤：

视觉基础模型（VFMs）：
- NavGPT 使用 BLIP-2 模型将视觉输入（如RGB图像）转化为详细的自然语言描述。例如，将图像转化为描述性文本：“一个厨房，有一个冰箱、一个炉灶和一个窗户。”
- 公式表示（简化）：
  $$
  \text{Visual Description}_t = \text{BLIP-2}(\text{Observation}_t)
  $$
  其中，$\text{Observation}_t$ 是时间步 $t$ 的视觉观察。
导航历史管理器：
- 使用 GPT-3.5 等模型对导航历史进行总结，生成简洁的历史描述，以便LLMs能够处理较长的上下文。
- 公式表示（简化）：
  $$
  \text{Summarized History}t = \text{GPT-3.5}(\text{History}{t-1}, \text{Observation}_t, \text{Action}t)
  $$
  其中，$\text{History}{t-1}$ 是到时间步 $t-1$ 的导航历史，$\text{Action}_t$ 是时间步 $t$ 的动作。^[3]^
提示管理器（Prompt Manager）：
- 将视觉描述、历史总结和指令整合成LLMs的输入提示，确保LLMs能够理解当前任务和环境状态。^[4]^
- 公式表示（简化）：
  $$
  \text{Prompt}_t = \text{Prompt Manager}(\text{Instruction}, \text{Visual Description}_t, \text{Summarized History}_t)
  $$
推理与决策：
- LLMs 根据输入提示进行推理，生成下一步的导航动作。
- 公式表示（简化）：
  $$
  \text{Action}_t = \text{LLMs}(\text{Prompt}_t)
  $$

成果：

NavGPT 展示了在零样本学习下，通过LLMs进行复杂场景中的视觉语言导航的潜力。^[5]^
它能够分解指令为子目标，识别地标，跟踪导航进度，并通过计划调整应对异常情况。^[6]^
NavGPT 生成的推理过程透明且可解释，为导航智能体的决策提供了明确的逻辑依据。^[7]^

《NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models》

方法概述：
NavGPT-2 在 NavGPT 的基础上进行了改进，通过融合视觉语言模型（VLM）来增强导航能力，并引入基于拓扑图的导航策略，以提高路径规划和回溯能力。^[8]^NavGPT-2 旨在消除基于LLMs的智能体与最先进的VLN专用模型之间的差距，同时保留LLMs的解释性推理能力。^[9]^

关键组件与步骤：

视觉语言模型（VLM）：
- NavGPT-2 构建在 InstructBLIP 架构之上，通过多图像感知适应VLN任务。
- 使用 Q-former 将视觉观察编码为固定长度的视觉标记，作为VLM的输入。^[10]^
- 公式表示（简化）：
  $$
  \text{VLM Latent}_t = \text{VLM}(\text{Q-former}(\text{Observation}_t))
  $$
基于拓扑图的导航策略：
- 引入拓扑图来维护导航经验，支持有效的路径规划和回溯。^[11]^
- 使用交叉模态编码器对指令和节点表示进行建模，生成动作得分。^[12]^
- 公式表示（简化）：
  $$
  \text{Action Score} = \text{GASA}(\text{Cross-Modal Encoder}(\text{Instruction}, \text{Node Embeddings}_t))
  $$
  其中，$\text{Node Embeddings}_t$ 是时间步 $t$ 的节点嵌入。^[13]^
多阶段学习：
- 采用两阶段训练方法：首先微调 Q-former 以适应导航推理数据，然后微调导航策略网络。^[14]^
- 公式表示（简化）：
  $$
  \text{Stage 1: } \min_{\theta_{\text{Q-former}}} \mathcal{L}{\text{Instruction-Tuning}}
  $$
  $$
  \text{Stage 2: } \min{\theta_{\text{Policy Network}}} \mathcal{L}{\text{DAgger}}
  $$
  其中，$\mathcal{L}{\text{Instruction-Tuning}}$ 和 $\mathcal{L}_{\text{DAgger}}$ 分别是微调 Q-former 和导航策略网络的损失函数。^[15]^

成果：

NavGPT-2 通过融合 VLM 和基于拓扑图的导航策略，显著提高了导航性能，抹平了与 VLN 专用模型之间的性能差距。^[16]^
能够在数据有限的情况下达到先进性能，展示了 LLMs 在导航过程中生成解释性推理的能力。^[17]^
NavGPT-2 的多阶段学习方法有效提升了模型的泛化能力和鲁棒性。^[18]^

对比两个论文的成果

方面	NavGPT	NavGPT-2
核心方法	基于 LLMs 的零样本学习，通过自然语言描述进行推理与决策。	融合 VLM，引入基于拓扑图的导航策略，进行多阶段训练。
视觉语言融合	使用 VFMs 将视觉输入转化为自然语言描述。	使用 VLM 的潜在表示作为视觉语言表示，增强视觉语言融合能力。
导航策略	依赖 LLMs 的推理能力进行决策，无特定导航策略。	引入基于拓扑图的导航策略，提高路径规划和回溯能力。
训练方式	未明确提及多阶段训练，主要依赖零样本学习。	采用两阶段训练方法，先微调 Q-former，再微调导航策略网络。
性能提升	展示了在零样本学习下的导航潜力，但性能有限。	显著提高了导航性能，抹平了与 VLN 专用模型之间的性能差距。
解释性推理	能够生成导航推理，但主要依赖 LLMs 的推理能力。	保留了 LLMs 的解释性推理能力，同时提高了导航准确性和效率。
数据效率	未特别强调数据效率，主要依赖零样本学习。	展示了在数据有限情况下的先进性能，强调数据效率。
应用场景	更适用于零样本学习或数据稀缺的场景。	更适用于需要高性能和泛化能力的复杂导航任务。

NavGPT-2 在 NavGPT 的基础上进行了显著的改进，通过融合 VLM 和引入基于拓扑图的导航策略，显著提高了导航性能，并展示了在数据有限情况下的先进性能。^[19]^这些改进使得 NavGPT-2 在 VLN 任务中更具竞争力和实用性，特别是在需要高性能和泛化能力的复杂导航任务中。^[20]^

Donate

Copyright： Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

NavGPT 方法介绍及公式

《NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models》

《NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models》

对比两个论文的成果