#353.视觉智能RAG与Agent框架：突破传统限制，构建多模态AI应用

Update: 2025-12-09

Description

📝 本期播客简介

本期我们克隆了：AI Engineer Podcast

VoiceVision RAG - Integrating Visual Document Intelligence with Voice Response — Suman Debnath, AWS

本期播客中，AWS首席机器学习布道师Suman Debnath深入探讨了多模态检索增强生成（RAG）技术的最新进展，特别是针对传统RAG在处理图像密集型文档时面临的挑战。Suman详细介绍了Call Pal这一基于视觉的检索模型，它如何通过将文档页面视为图像、并利用图像分块和“延迟交互”机制来理解视觉上下文，从而实现更精准的检索。他不仅从理论层面解释了Call Pal的工作原理，包括其与视觉语言模型的关联，还通过一个详细的代码演示，展示了如何使用Call Pal与Quadrant向量数据库，并结合Strands Agent框架，构建一个能够进行视觉检索并以语音形式生成答案的智能应用。Suman强调，Call Pal并非要取代传统RAG，而是一种针对特定复杂视觉数据集的强大补充，为听众提供了关于何时以及如何有效利用这项前沿技术的实用指导。

👨‍⚕️ 本期嘉宾

Suman Debnath，AWS首席机器学习布道师。他专注于自然语言处理（NLP）、检索增强生成（RAG）和模型微调等领域，是多模态AI和Agent框架方面的专家。

⏱️ 时间戳

00:00 开场 & 播客简介

视觉RAG与Agent框架概览

01:56 Suman开场：视觉检索与Agent框架的探索之旅

03:11 互动环节：了解听众背景与资源分享

05:07 GitHub仓库导览：基于视觉的Agent RAG实践

传统多模态RAG的挑战

06:14 多模态RAG的传统实现方法

06:18 方法一：实体分离与多模态Embedding

08:26 方法二：实体摘要与文本Embedding

09:24 方法三：摘要检索与原始数据生成

11:41 传统RAG的局限性：图像密集型文档的困境

Call Pal：基于视觉的检索模型

14:22 灵感来源：模仿人类阅读与理解

15:34 Call Pal模型概述：将页面视为图像并分块处理

16:18 Call Pal核心机制：Embedding与检索

16:53 视觉语言模型基础：对比学习与正向提示

20:32 Call Pal的Embedding过程：预处理与向量生成

22:59 延迟交互检索：查询与图像分块的相似度计算

代码实践：Call Pal与Agent工作流

25:50 演示环境搭建：模型、数据与Quadrant数据库

32:26 数据准备：PDF转图片及元数据处理

33:07 Embedding生成：Call Pal模型处理图片

34:10 语义搜索：基于查询检索相关页面

34:53 答案生成：结合多模态LLM输出结果

37:21 Strands Agent框架：轻量级Agent构建

38:05 Strands Agent简介：模型优先与工具集成

43:02 自定义检索工具：Call Pal与Agent的结合

45:16 增强Agent：加入语音输出功能

问答环节：应用与未来展望

49:26 生产环境应用与扩展性考量

52:59 Call Pal与传统RAG：选择与权衡

56:00 混合架构探索：Call Pal与传统RAG的结合

57:21 模型微调：Call Pal的优化潜力

🌟 精彩内容

💡 传统多模态RAG的局限与Call Pal的诞生

Suman Debnath深入剖析了当前多模态RAG在处理视觉信息（如扫描PDF、图像嵌入文本）时的不足，引出Call Pal这一创新模型。Call Pal通过将每个文档页面视为一张图片，并对其进行分块处理，从而更好地捕捉视觉上下文，解决了传统OCR技术难以应对的挑战。

“我只有在我的数据集非常奇特，并且作为人类，你都觉得我必须看着它才能读懂的情况下，我才会用这个方法。”

🛠️ Call Pal的“延迟交互”检索机制

Call Pal的核心在于其独特的“延迟交互”检索机制。它将文本查询的每个token与图像分块的embedding进行点积运算，并聚合最大相似度得分，以评估查询与整个页面的相关性。这种方法能够精准识别包含关键视觉信息的页面，而非仅仅匹配零散的文本片段。

“如果你想找个法子从公司换台新电脑，这就是那个单元格了。你可以试试。” (关于CPU运行Batch Size过大导致电脑崩溃的趣事)

🚀 Strands Agent：轻量级AI应用框架

Suman介绍了AWS开源的Strands Agent框架，一个模型优先、极其轻量级的Agent构建工具。通过简单的模型与工具组合，开发者可以快速创建智能应用，并轻松集成语音输出等功能。节目中演示了如何将Call Pal检索能力封装成自定义工具，并与Strands Agent结合，实现从视觉检索到语音回答的完整工作流。

“毕竟现在，没个 agent 简直没法聊技术了。”

🤔 何时选择Call Pal而非传统RAG

Suman强调，Call Pal并非要取代传统RAG，而是一种针对特定场景的补充。他建议优先采用更高效、成本更低的传统RAG方法。只有当数据集高度依赖视觉上下文（例如宜家说明书、大量图片嵌入文本的文档），且人类需要“看着”才能理解时，才应考虑使用Call Pal。

“所以，我建议不要一开始就用这个方法，而是从传统技术开始，因为那更高效，成本也更低，而且也更轻量，因为在这里，我们为每一页都存储了大量的向量。”

🌐 播客信息补充

本播客采用原有人声声线进行播客音频制作，也可能会有一些地方听起来怪怪的

使用 AI 进行翻译，因此可能会有一些地方不通顺；

如果有后续想要听中文版的其他外文播客，也欢迎联系微信：iEvenight

Comments

In Channel

#356.Huberman Lab: 冥想的科学与实践——定制你的冥想以提升专注、情绪与睡眠

2025-12-1202:18:07

#355.Gavin Baker - Nvidia 与 Google、缩放定律，以及 AI 的经济学

2025-12-1101:29:47

#356.AI硬件的未来：英伟达首席科学家Bill Dally的深度洞察

2025-12-1101:03:25

#354.Huberman Lab：掌握创意过程｜Twyla Tharp

2025-12-1002:23:41

#353.视觉智能RAG与Agent框架：突破传统限制，构建多模态AI应用

2025-12-0901:00:34

#352.AI 时代的财富密码：四年十亿营收，不玩硅谷规则，Surge AI 创始人揭示 AI 发展的真相与未来

2025-12-0759:50

#351.MrBeast：从“数到十万”到52亿美元商业帝国，内容巨星的增长哲学与商业版图

2025-12-0738:33

#350.AI如何改变软件工程——Martin Fowler专访

2025-12-0701:34:10

#349.产品经理的终结？为什么 LinkedIn 正在将 PMs 转变为 AI 驱动的“全栈构建者”

2025-12-0554:35

#348.a16z成长投资合伙人David George：构建AI投资帝国，洞察未来科技格局

2025-12-0459:37

#347.黄仁勋：从贫困移民到AI芯片巨头，穿越数次生死危机的传奇人生

2025-12-0402:12:46

#346.OpenAI首席研究官Mark Chen：AI前沿、人才之战与AGI的未来

2025-12-0301:22:32

#345.揭秘女性健康盲区：PCOS、子宫内膜异位症、生育与乳腺癌的真相与自救指南

2025-12-0303:01:34

#344.马斯克：创造多于索取，AI时代的财富与哲学

2025-12-0101:20:20

#343.AI学习工具NoteBookLM：是利器还是幻觉？

2025-12-0143:41

#342.AI 前沿：Transformer 发明人揭秘推理模型与 AI 持续指数级增长

2025-11-3057:59

#341.AI前沿：兴奋与恐惧交织，教育界如何迎接认知革命

2025-11-2956:04

#340.：对话李飞飞与Justin Johnson:超越语言模型，构建理解三维世界的AI新前沿

2025-11-2859:26

#339.Nano Banana Pro 发布会：图像生成新纪元，从漫画到商业设计

2025-11-2701:10:04

#338.压力、睾酮、攻击性与动机的科学 | 罗伯特·萨波尔斯基博士

2025-11-2727:59

00:00

#353.视觉智能RAG与Agent框架：突破传统限制，构建多模态AI应用

#box-pro-ellipsis-176560896202027{-webkit-line-clamp:2;}#353.视觉智能RAG与Agent框架：突破传统限制，构建多模态AI应用

VoiceVision RAG - Integrating Visual Document Intelligence with Voice Response — Suman Debnath, AWS

#353.视觉智能RAG与Agent框架：突破传统限制，构建多模态AI应用

#353.视觉智能RAG与Agent框架：突破传统限制，构建多模态AI应用