认知思维链:社会情境中的结构化多模态推理
思维链(CoT)提示能够帮助模型进行逐步思考。但当模型需要同时进行观察、理解和判断时,传统的扁平化CoT方法往往失效。特别是在基于社会情境的视觉任务中,连接感知与规范基础判断的能力至关重要。
本文提出认知思维链(CoCoT)提示策略,通过三个受认知启发的阶段来搭建视觉语言模型(VLM)的推理框架:
- 感知阶段:处理原始感官输入
-
- 情境阶段:理解当前场景上下文
-
- 规范阶段:基于社会规范做出判断 实验结果表明,在多个多模态基准测试(包括意图消歧、常识推理和安全性评估)中,CoCoT consistently outperforms CoT和直接提示方法,平均性能提升8%。这些发现证明,基于认知的推理阶段能够增强视觉语言模型的可解释性和社会意识,为构建更安全可靠的多模态系统铺平道路。