0

点赞

收藏

分享

多模态推理新框架：认知思维链技术解析

进击的铁雾 09-03 18:00 阅读 19

标签: 人工智能多模态推理提示工程办公效率 yyds干货盘点

认知思维链：社会情境中的结构化多模态推理

思维链(CoT)提示能够帮助模型进行逐步思考。但当模型需要同时进行观察、理解和判断时，传统的扁平化CoT方法往往失效。特别是在基于社会情境的视觉任务中，连接感知与规范基础判断的能力至关重要。

本文提出认知思维链(CoCoT)提示策略，通过三个受认知启发的阶段来搭建视觉语言模型(VLM)的推理框架：

感知阶段：处理原始感官输入
1. 情境阶段：理解当前场景上下文
1. 规范阶段：基于社会规范做出判断实验结果表明，在多个多模态基准测试（包括意图消歧、常识推理和安全性评估）中，CoCoT consistently outperforms CoT和直接提示方法，平均性能提升8%。这些发现证明，基于认知的推理阶段能够增强视觉语言模型的可解释性和社会意识，为构建更安全可靠的多模态系统铺平道路。

0 条评论

进击的铁雾

关注