0
点赞
收藏
分享

微信扫一扫

自适应多模态检索-增强生成

本文提出了一种名为自适应多模态检索增强生成(SAM-RAG)的新框架,旨在解决传统检索增强生成(RAG)方法在处理复杂多模态任务时的局限性。SAM-RAG能够根据查询动态筛选相关的文本和图像,并通过多阶段验证机制评估检索结果和生成的回答,确保其相关性、准确性和支持性。实验结果表明,SAM-RAG在多模态检索和生成任务中显著优于现有的最先进方法,尤其在减少错误信息(如幻觉现象)方面表现出色。

自适应多模态检索-增强生成_自适应

1 SAM-RAG框架

以下是SAM-RAG框架的一些主要模块的介绍:

· 模态对齐:

  • ·将图像等非文本模态转换为文本表示,以便与文本数据进行统一处理。首先通过GPT生成原始的图片标题(不特定于查询),用于检索和相似度计算,然后对这些文本化的图像和原始文本文档进行嵌入和向量化。

· 文档检索:

  • ·对于给定的查询,使用DPR(Dense Passage Retrieval)模型计算文档库中各文档的相似度,并按相似度对文档排序,以便进行下一步的相关性验证。

· 相关性验证(isRel):

  • ·对检索到的文档进行批量处理,评估每个文档是否与查询相关。对于文本文档,直接评估文本内容的相关性;对于图像文档,生成基于查询的标题并评估其相关性。如果文档被判定为相关,则保留用于生成答案。

· 回答生成:

  • ·利用通过相关性验证的上下文信息生成初步答案。该生成过程采用自回归方式,逐步生成答案文本。

· 回答验证:

  • ·框架对生成的答案进行多阶段验证:1. isUse:检查生成的答案是否准确回答了问题。2. isSup:验证生成的答案是否得到检索到的上下文支持。如果答案不被支持,系统会重新检索更多相关文档并生成新的答案。3. isSup Partial:如果答案部分得到支持,系统会继续保留当前上下文,并进一步检索补充信息。

自适应多模态检索-增强生成_相似度_02

2 结语

本文提出了一种新的方法,即自适应多模态检索增强生成(SAM-RAG),通过动态筛选相关文档和验证生成结果,显著提升多模态任务中的检索准确性和生成质量。

论文题目: Self-adaptive Multimodal Retrieval-Augmented Generation

论文链接: https://arxiv.org/abs/2410.11321v1


PS: 欢迎大家扫码关注公众号_,我们一起在AI的世界中探索前行,期待共同进步!

自适应多模态检索-增强生成_自适应_03

精彩回顾

1. 调查 CoT 增强蒸馏的奥秘

2. 在缺乏连接的多智能体系统中建立共识

3. 解耦视觉编码以实现统一的多模态理解和生成

举报

相关推荐

0 条评论