0
点赞
收藏
分享

微信扫一扫

多模态推理新框架:认知思维链技术解析

认知思维链:社会情境中的结构化多模态推理

思维链(CoT)提示能够帮助模型进行逐步思考。但当模型需要同时进行观察、理解和判断时,传统的扁平化CoT方法往往失效。特别是在基于社会情境的视觉任务中,连接感知与规范基础判断的能力至关重要。

本文提出认知思维链(CoCoT)提示策略,通过三个受认知启发的阶段来搭建视觉语言模型(VLM)的推理框架:

  1. 感知阶段:处理原始感官输入
    1. 情境阶段:理解当前场景上下文
    1. 规范阶段:基于社会规范做出判断 实验结果表明,在多个多模态基准测试(包括意图消歧、常识推理和安全性评估)中,CoCoT consistently outperforms CoT和直接提示方法,平均性能提升8%。这些发现证明,基于认知的推理阶段能够增强视觉语言模型的可解释性和社会意识,为构建更安全可靠的多模态系统铺平道路。
举报

相关推荐

0 条评论