NAVGPT

《NavGPT: Explicit Reasoning in Vision-and-Language Navigation with Large Language Models》

方法概述
NavGPT 是一个创新的视觉与语言导航(VLN)系统,它充分利用大型语言模型(LLMs)的推理能力,通过零样本学习的方式,将视觉观察、导航历史和未来可探索方向转化为自然语言描述,作为LLMs的输入,以推理智能体的当前状态并做出决策。^[1]^NavGPT 的核心在于其能够生成明确的推理过程,展示其决策背后的逻辑。^[2]^

关键组件与步骤

  1. 视觉基础模型(VFMs)

    • NavGPT 使用 BLIP-2 模型将视觉输入(如RGB图像)转化为详细的自然语言描述。例如,将图像转化为描述性文本:“一个厨房,有一个冰箱、一个炉灶和一个窗户。”
    • 公式表示(简化):
      $$
      \text{Visual Description}_t = \text{BLIP-2}(\text{Observation}_t)
      $$
      其中,$\text{Observation}_t$ 是时间步 $t$ 的视觉观察。
  2. 导航历史管理器

    • 使用 GPT-3.5 等模型对导航历史进行总结,生成简洁的历史描述,以便LLMs能够处理较长的上下文。
    • 公式表示(简化):
      $$
      \text{Summarized History}t = \text{GPT-3.5}(\text{History}{t-1}, \text{Observation}_t, \text{Action}t)
      $$
      其中,$\text{History}
      {t-1}$ 是到时间步 $t-1$ 的导航历史,$\text{Action}_t$ 是时间步 $t$ 的动作。^[3]^
  3. 提示管理器(Prompt Manager)

    • 将视觉描述、历史总结和指令整合成LLMs的输入提示,确保LLMs能够理解当前任务和环境状态。^[4]^
    • 公式表示(简化):
      $$
      \text{Prompt}_t = \text{Prompt Manager}(\text{Instruction}, \text{Visual Description}_t, \text{Summarized History}_t)
      $$
  4. 推理与决策

    • LLMs 根据输入提示进行推理,生成下一步的导航动作。
    • 公式表示(简化):
      $$
      \text{Action}_t = \text{LLMs}(\text{Prompt}_t)
      $$

成果

  • NavGPT 展示了在零样本学习下,通过LLMs进行复杂场景中的视觉语言导航的潜力。^[5]^
  • 它能够分解指令为子目标,识别地标,跟踪导航进度,并通过计划调整应对异常情况。^[6]^
  • NavGPT 生成的推理过程透明且可解释,为导航智能体的决策提供了明确的逻辑依据。^[7]^

《NavGPT-2: Unleashing Navigational Reasoning Capability for Large Vision-Language Models》

方法概述
NavGPT-2 在 NavGPT 的基础上进行了改进,通过融合视觉语言模型(VLM)来增强导航能力,并引入基于拓扑图的导航策略,以提高路径规划和回溯能力。^[8]^NavGPT-2 旨在消除基于LLMs的智能体与最先进的VLN专用模型之间的差距,同时保留LLMs的解释性推理能力。^[9]^

关键组件与步骤

  1. 视觉语言模型(VLM)

    • NavGPT-2 构建在 InstructBLIP 架构之上,通过多图像感知适应VLN任务。
    • 使用 Q-former 将视觉观察编码为固定长度的视觉标记,作为VLM的输入。^[10]^
    • 公式表示(简化):
      $$
      \text{VLM Latent}_t = \text{VLM}(\text{Q-former}(\text{Observation}_t))
      $$
  2. 基于拓扑图的导航策略

    • 引入拓扑图来维护导航经验,支持有效的路径规划和回溯。^[11]^
    • 使用交叉模态编码器对指令和节点表示进行建模,生成动作得分。^[12]^
    • 公式表示(简化):
      $$
      \text{Action Score} = \text{GASA}(\text{Cross-Modal Encoder}(\text{Instruction}, \text{Node Embeddings}_t))
      $$
      其中,$\text{Node Embeddings}_t$ 是时间步 $t$ 的节点嵌入。^[13]^
  3. 多阶段学习

    • 采用两阶段训练方法:首先微调 Q-former 以适应导航推理数据,然后微调导航策略网络。^[14]^
    • 公式表示(简化):
      $$
      \text{Stage 1: } \min_{\theta_{\text{Q-former}}} \mathcal{L}{\text{Instruction-Tuning}}
      $$
      $$
      \text{Stage 2: } \min
      {\theta_{\text{Policy Network}}} \mathcal{L}{\text{DAgger}}
      $$
      其中,$\mathcal{L}
      {\text{Instruction-Tuning}}$ 和 $\mathcal{L}_{\text{DAgger}}$ 分别是微调 Q-former 和导航策略网络的损失函数。^[15]^

成果

  • NavGPT-2 通过融合 VLM 和基于拓扑图的导航策略,显著提高了导航性能,抹平了与 VLN 专用模型之间的性能差距。^[16]^
  • 能够在数据有限的情况下达到先进性能,展示了 LLMs 在导航过程中生成解释性推理的能力。^[17]^
  • NavGPT-2 的多阶段学习方法有效提升了模型的泛化能力和鲁棒性。^[18]^

对比两个论文的成果

方面 NavGPT NavGPT-2
核心方法 基于 LLMs 的零样本学习,通过自然语言描述进行推理与决策。 融合 VLM,引入基于拓扑图的导航策略,进行多阶段训练。
视觉语言融合 使用 VFMs 将视觉输入转化为自然语言描述。 使用 VLM 的潜在表示作为视觉语言表示,增强视觉语言融合能力。
导航策略 依赖 LLMs 的推理能力进行决策,无特定导航策略。 引入基于拓扑图的导航策略,提高路径规划和回溯能力。
训练方式 未明确提及多阶段训练,主要依赖零样本学习。 采用两阶段训练方法,先微调 Q-former,再微调导航策略网络。
性能提升 展示了在零样本学习下的导航潜力,但性能有限。 显著提高了导航性能,抹平了与 VLN 专用模型之间的性能差距。
解释性推理 能够生成导航推理,但主要依赖 LLMs 的推理能力。 保留了 LLMs 的解释性推理能力,同时提高了导航准确性和效率。
数据效率 未特别强调数据效率,主要依赖零样本学习。 展示了在数据有限情况下的先进性能,强调数据效率。
应用场景 更适用于零样本学习或数据稀缺的场景。 更适用于需要高性能和泛化能力的复杂导航任务。

NavGPT-2 在 NavGPT 的基础上进行了显著的改进,通过融合 VLM 和引入基于拓扑图的导航策略,显著提高了导航性能,并展示了在数据有限情况下的先进性能。^[19]^这些改进使得 NavGPT-2 在 VLN 任务中更具竞争力和实用性,特别是在需要高性能和泛化能力的复杂导航任务中。^[20]^

Donate
  • Copyright: Copyright is owned by the author. For commercial reprints, please contact the author for authorization. For non-commercial reprints, please indicate the source.

扫一扫,分享到微信

微信分享二维码
  • Copyrights © 2023-2025 John Doe
  • Visitors: | Views:

请我喝杯茶吧~

支付宝
微信