51c大模型~合集6-CFANZ编程社区

#斯坦福小镇

机器人版的「斯坦福小镇」来了，专为具身智能研究打造

首个专为各种机器人设计的模拟互动 3D 社会。

还记得斯坦福的 AI 小镇吗？这是斯坦福的 AI 研究者打造的一个虚拟环境。在这个小镇上，25 个 AI 智能体正常生活、工作、社交，甚至谈恋爱，每个智能体都有自己的个性和背景故事。智能体的行为和记忆通过大语言模型来驱动，这些模型能够存储和检索智能体的经历，并根据这些记忆来规划行动。

51c大模型~合集6_语言模型

与之类似，最近，来自上海人工智能实验室 OpenRobotLab 等机构的一批研究者也打造了一个虚拟小镇。不过，生活在其中的是机器人和 NPC。

这个小镇包含 10 万个交互式场景和 89 种不同的场景类别，是首个专为各种机器人设计的模拟互动 3D 社会。

51c大模型~合集6_语言模型_02

他们为机器人设计的这个虚拟环境名叫 GRUtopia，项目主要包括：

1、场景数据集 GRScenes。包含 10 万个交互式、精细注释的场景，可自由组合成城市规模的环境。与以往主要关注家庭的工作不同，GRScenes 涵盖了 89 种不同的场景类别，弥补了服务型环境的空白（一般机器人最初会部署在服务型环境中）。

2、GRResidents。这是一个大型语言模型（LLM）驱动的非玩家角色（NPC）系统，负责社交互动、任务生成和任务分配，从而模拟具身 AI 应用的社交场景。

3、基准 GRBench。支持各种机器人，但侧重于作为主要智能体的有腿机器人，并提出了涉及物体定位导航、社交定位导航和定位操纵的中等难度任务。

作者希望这项工作能缓解该领域高质量数据稀缺的问题，并为具身 AI 研究提供更全面的评估。

论文标题：GRUtopia: Dream General Robots in a City at Scale
论文地址：https://arxiv.org/pdf/2407.10943
项目地址：https://github.com/OpenRobotLab/GRUtopia

GRScenes：大规模的完全互动环境

要建立一个用于训练和评估具身智能体的平台，具有不同场景和物体资产的完全交互式环境是必不可少的。因此，作者收集了一个包含各种物体资产的大规模 3D 合成场景数据集，作为 GRUtopia 平台的基础。

多样、逼真的场景

由于开源 3D 场景数据的数量和类别有限，作者首先从设计师网站上收集了约 10 万个高质量的合成场景，从而获得多样化的场景原型。然后，他们对这些场景原型进行清理，并对其进行区域和物体级别的语义注释，最后将它们组合在一起，形成城镇，作为机器人的基本游乐场。

如图 2-(a) 所示，除了常见的家庭场景外，作者构建的数据集中还有 30% 的其他不同类别的场景，如餐厅、办公室、公共场所、酒店、娱乐等。作者从大规模数据集中初步筛选出 100 个带有精细注释的场景，用于开源基准测试。这 100 个场景包括 70 个家庭场景和 30 个商业场景，其中家庭场景由综合性常见区域和其他不同区域组成，商业场景涵盖医院、超市、餐厅、学校、图书馆和办公室等常见类型。

51c大模型~合集6_语言模型_03

此外，作者还与几位专业设计师合作，按照人类的生活习惯来分配物体，使这些场景更加逼真，如图 1 所示，而这在以前的作品中通常是被忽略的。

具有部件（part）级注释的交互式物体

这些场景原本包含多个 3D 物体，但其中一些没有内部建模，因此无法训练机器人与这些物体进行交互。为了解决这个问题，作者与专业团队合作，对这些资产进行修改，并创建完整的物体，使它们能够以物理上可信的方式进行交互。此外，为了提供更全面的信息，使智能体能够与这些资产进行交互，作者在英伟达 Omniverse 中以 X 形式为所有物体的交互部件附加了细粒度部件标签。最后，100 个场景包含 96 个类别的 2956 个交互式物体和 22001 个非交互式物体，其分布情况如图 2-(b) 所示。

51c大模型~合集6_语言模型_04

分层多模态注释

最后，为了实现具身智能体与环境以及 NPC 的多模态交互，还需要对这些场景和对象进行语言注释。与之前的多模态 3D 场景数据集只关注对象层面或对象间关系不同，作者还考虑了场景元素的不同粒度，如对象与区域的关系。鉴于缺乏区域标签，作者首先设计了一个用户界面，在场景鸟瞰图上用多边形注释区域，然后可以在语言注释中涉及对象 - 区域关系。对于每个对象，他们都会用渲染的多视图图像提示功能强大的 VLM（如 GPT-4v），以初始化注释，然后由人工进行检查。由此产生的语言注释为后续基准测试生成具身任务提供了基础。

GRResidents3D 环境中的生成式 NPC

在 GRUtopia 中，作者通过嵌入一些「居民」（即由 LLM 驱动的生成式 NPC）来赋予世界以社交能力，从而模拟城市环境中的社会互动。这个 NPC 系统被命名为 GRResidents。在 3D 场景中构建真实虚拟角色的主要挑战之一是整合 3D 感知能力。然而，虚拟角色可以轻松访问场景注释和模拟世界的内部状态，从而实现强大的感知能力。为此，作者设计了一个世界知识管理器（WKM），用于管理实时世界状态的动态知识，并通过一系列数据接口提供访问。借助 WKM，NPC 可以检索所需的知识，并通过参数化函数调用执行细粒度的对象 grounding，这构成了其感知能力的核心。

世界知识管理器（WKM）

WKM 的主要职责是持续管理虚拟环境知识，并向 NPC 提供高级场景知识。具体来说，WKM 分别从数据集和模拟器后台获取分层注释和场景知识，构建场景图作为场景表示，其中每个节点表示一个对象实例，边表示对象之间的空间关系。作者采用 Sr3D 中定义的空间关系作为关系空间。WKM 会在每个模拟步骤中保留该场景图。此外，WKM 还提供了三个核心数据接口，用于从场景图中提取知识：

1、find_diff (target, objects)：比较目标对象与一组其他对象之间的差异；

2、get_info (object, type)：根据所需的属性类型获取对象的知识；

3、filter (objects, condition):：根据条件过滤对象。

LLM 规划器

NPC 的决策模块是一个基于 LLM 的规划器，由三个部分组成（图 3）：一个存储模块，用于存储 NPC 与其他智能体之间的聊天历史记录；一个 LLM 程序员，使用 WKM 的接口来查询场景知识；以及一个 LLM 发言器，用于消化聊天历史记录和查询到的知识，从而生成回复。当一个 NPC 收到一条信息时，它会首先将信息存储在内存中，然后将更新的历史记录转发给 LLM 程序员。然后，程序员会反复调用数据接口来查询必要的场景知识。最后，将知识和历史记录发送给 LLM 发言器，由其生成响应。

51c大模型~合集6_语言模型_05

实验

作者进行了对象指代、语言 grounding 和以对象为中心的 QA 等方面的实验，以证明论文中的 NPC 能够生成对象说明，通过描述定位对象，以及为智能体提供对象信息。这些实验中的 NPC 后端 LLM 包括 GPT-4o、InternLM2-Chat-20B 和 Llama-3-70BInstruct。

如图 4 所示，在指代实验中，作者采用了 human-in-the-loop 评估。NPC 随机选择一个对象并对其进行描述，然后人类注释者根据描述选择一个对象。如果人类注释者能找到与描述相对应的正确对象，则指代成功。在 grounding 实验中，GPT-4o 扮演了人类注释者的角色，它提供了一个物体的描述，然后由 NPC 对其进行定位。如果 NPC 能够找到相应的物体，则 grounding 成功。

51c大模型~合集6_语言模型_06

表 2 中的成功率（指代和 grounding）显示，不同 LLM 的准确率分别为 95.9%-100% 和 83.3%-93.2% ，这验证了我们的 NPC 框架在不同 LLM 中指代和接地的准确性。

在以对象为中心的 QA 实验中，作者评估了 NPC 在导航任务中通过回答问题向智能体提供对象级信息的能力。他们设计了一个 pipeline 来生成以对象为中心的导航情节，模拟真实世界的场景。在这些场景中，智能体向 NPC 提问以获取信息，并根据回答采取行动。给定智能体问题后，作者根据 NPC 的答案与真实答案之间的语义相似性对其进行评估。表 2（QA）中显示的总体得分表明，NPC 可以提供精确而有用的导航帮助。

GRBench：一个评估具身智能体的基准

GRBench 是评估机器人智能体能力的综合评估工具。为了评估机器人智能体处理日常任务的能力，GRBench 包括三个基准：物体定位导航、社交定位导航和定位操作。这些基准的难度逐渐增加，对机器人技能的要求也随之提高。

由于腿式机器人具有卓越的跨地形能力，作者优先考虑将其作为主要智能体。然而，在大规模场景中，要同时执行高级感知、规划和低级控制并取得令人满意的结果，对当前的算法来说具有挑战性。

GRBench 的最新进展证明了在仿真中针对单项技能训练高精度策略的可行性，受此启发，GRBench 的初始版本将重点放在高级任务上，并提供基于学习的控制策略作为 API，如行走和拾放。因此，他们的基准提供了更真实的物理环境，缩小了模拟与真实世界之间的差距。

下图是 GRBench 的一些任务示例。

51c大模型~合集6_数据_07

下图是基准智能体的概览。grounding 模块 (a) 将原始感官数据处理成语义丰富的信息，记忆模块（b）存储行动观察历史等历史信息。决策模块（c）由 VLM 或 LLM 组成，根据（a）和（b）的信息做出行动决策，而行动模块（d）则执行输出的行动。环境模拟行动带来的物理变化，并产生感官数据。智能体可以选择向顾问 NPC 询问有关任务的进一步指示。

51c大模型~合集6_语言模型_08

定量评估结果

作者在三个基准测试中对不同大型模型后端下的大型模型驱动智能体框架进行了比较分析。如表 4 所示，他们发现随机策略的性能接近于 0，这表明他们的任务并不简单。当使用相对较优的大型模型作为后端时，他们在所有三个基准测试中都观察到了明显更好的整体性能。值得一提的是，他们观察到 Qwen 在对话中的表现优于 GPT-4o（见表 5）。

51c大模型~合集6_语言模型_09

51c大模型~合集6_语言模型_10

此外，与直接使用多模态大模型进行决策相比，本文提出的智能体框架表现出明显的优越性。这表明，即使是目前最先进的多模态大型模型，在现实世界的具身任务中也缺乏强大的泛化能力。不过，本文的方法也有相当大的改进空间。这表明，当引入更接近真实世界的任务设置时，即使是像导航这样已经研究多年的任务，仍然远未完全解决。

定性评估结果

图 7 展示了 LLM 智能体在「社会定位导航」（Social Loco-Navigation）任务中执行的一个小片段，以说明智能体如何与 NPC 互动。该智能体最多可与 NPC 对话三次，以查询更多任务信息。在 t = 240 时，智能体导航到一把椅子前，询问 NPC 这把椅子是否是目标椅子。然后，NPC 提供有关目标的周边信息，以减少模糊性。在 NPC 的协助下，智能体通过类似人类行为的交互过程成功识别了目标椅子。这表明，本文中的 NPC 能够为研究人与机器人的互动和协作提供自然的社会互动。

51c大模型~合集6_语言模型_11

#DataComp-LM（DCLM）

权重、代码、数据集全开源，性能超越Mistral-7B，苹果小模型来了

小模型成趋势？

本周，OpenAI 上线小模型 GPT-4o-mini，小模型赛道正式开卷。近期加入这一赛道的还有苹果。

最近，苹果公司作为 DataComp-LM（DCLM）项目的研究机构之一，在 Hugging Face 上发布了 DCLM-7B 开源模型。该模型性能已经超越了 Mistral-7B，并且正在逼近其他领先的开源模型，包括 Llama 3 和 Gemma。

论文链接：https://arxiv.org/pdf/2406.11794
项目链接：https://huggingface.co/apple/DCLM-7B

论文作者之一、苹果机器学习团队 Vaishaal Shankar 将 DCLM 模型描述为「真正开源的最佳模型」，因为 DCLM 不仅开源了模型权重，还开源了训练代码和预训练数据集。

研究介绍

大型语言模型（LLM）目前面临的一个评估挑战是缺乏受控比较。LLM 研究通常会比较采用不同架构、计算或超参数的模型，因此难以理清影响语言模型质量的因素。

基于此，研究团队提出了语言模型数据比较新基准 ——DCLM，这是语言模型训练数据整编（curation）的第一个基准，旨在让 LLM 通过设计高质量数据集来提高模型性能，特别是在多模态领域。

研究团队发现基于模型的过滤，即由机器学习 (ML) 模型从较大的数据集中自动过滤和选择高质量数据，可能是构建高质量训练集的关键。

DCLM 整体思路很简单：使用一个标准化的框架来进行实验，包括固定的模型架构、训练代码、超参数和评估，最终找出哪种数据整理策略最适合训练出高性能的模型。

51c大模型~合集6_数据集_12

使用 DCLM，研究团队构建了一个高质量数据集 DCLM-BASELINE，并用该数据集从头开始训练了一个 7B 参数模型 —— DCLM-7B。

51c大模型~合集6_语言模型_13

DCLM-7B 模型的细节。

DCLM-7B 使用基于 OpenLM 框架的预训练方案，在 MMLU 基准上 5-shot 准确率达到 64%，可与 Mistral-7B-v0.3（63%）和 Llama 3 8B（66%）相媲美，并且在 53 个自然语言理解任务上的平均表现也可与 Mistral-7B-v0.3、Llama 3 8B 相媲美，而所需计算量仅为 Llama 3 8B 的 1/6。

51c大模型~合集6_数据集_15

以下是 DCLM-7B 在各种任务（部分）上的评估结果：

51c大模型~合集6_数据集_16

DCLM-7B 与其他同等大小模型比较结果如下表所示：

51c大模型~合集6_数据集_17

值得注意的是，大部分其他模型虽然开放权重但封闭数据。这就是 Vaishaal Shankar 将 DCLM 模型描述为「真正开源」的原因。

参考链接：https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/

#Awesome-LLM4Graph-Papers

港大黄超团队深度解析大模型在图机器学习领域的「未知边界」

本文的主要作者来自香港大学的数据智能实验室 (Data Intelligence Lab)。作者中，第一作者任旭滨和第二作者汤嘉斌都是香港大学数据科学院的一年级博士生，指导老师为 Data Intelligence Lab@HKU 的黄超教授。香港大学数据智能实验室致力于人工智能和数据挖掘的相关研究，涵盖大语言模型、图神经网络、信息检索、推荐系统、时空数据挖掘等领域。此前的工作包括了通用图大语言模型 GraphGPT，HiGPT；智慧城市大语言模型 UrbanGPT；可解释大语言模型推荐算法 XRec 等。

在信息爆炸的当今时代，我们如何从浩如烟海的数据中探寻深层次的联系呢？

对此，香港大学、圣母大学等机构的专家学者在图学习与大型语言模型领域的最新综述中，为我们揭示了答案。

图，作为描绘现实世界中各种关系的基础数据结构，其重要性不言而喻。以往的研究已证明，图神经网络在图相关的任务中取得了令人瞩目的成果。然而，随着图数据应用场景复杂度的不断提升，图机器学习的瓶颈问题也越发凸显。近期，大型语言模型在自然语言处理领域大放异彩，其出色的语言理解和总结能力备受瞩目。正因如此，将大语言模型与图学习技术相融合，以提升图学习任务的效能，已成为业界新的研究热点。

这篇综述针对当前图学习领域的关键技术挑战，如模型泛化能力、鲁棒性，以及复杂图数据的理解能力等，进行了深入分析，并展望了未来大模型技术在突破这些 "未知边界" 方面的潜力。

论文地址：https://arxiv.org/abs/2405.08011
项目地址：https://github.com/HKUDS/Awesome-LLM4Graph-Papers
港大数据智能实验室：https://sites.google.com/view/chaoh/home

该综述深入回顾了最新应用于图学习中的 LLMs，并提出了一种全新的分类方法，依据框架设计对现有技术进行了系统分类。其详尽剖析了四种不同的算法设计思路：一是以图神经网络为前缀，二是以大语言模型为前缀，三是大语言模型与图集成，四是仅使用大语言模型。针对每一类别，我们都着重介绍了其中的核心技术方法。此外，该综述还深入探讨了各种框架的优势及其局限性，并指明了未来研究的潜在方向。

香港大学数据智能实验室的黄超教授领导的研究团队，将在 KDD 2024 大会上深入探讨大模型在图学习领域所面临的 "未知边界"。

1 基本知识

在计算机科学领域，图（Graph）是一种重要的非线性数据结构，它由节点集（V）和边集（E）构成。每条边连接一对节点，并可能是有向的（具有明确的起点和终点）或无向的（不指定方向）。特别值得一提的是，文本属性图（Text-Attributed Graph, TAG）作为图的特殊形式，为每个节点分配了一个序列化的文本特征，如句子，这一特性在大型语言模型时代显得尤为关键。文本属性图可以规范地表示为由节点集 V、边集 E 和文本特征集 T 组成的三元组，即 G* = (V, E, T)。

图神经网络（Graph Neural Networks, GNNs）是针对图结构数据设计的深度学习框架。它通过聚合邻近节点的信息来更新节点的嵌入表示。具体来说，GNN 的每一层都会通过特定的函数来更新节点嵌入 h，该函数综合考虑当前节点的嵌入状态以及周边节点的嵌入信息，从而生成下一层的节点嵌入。

大型语言模型（Large Language Models, LLMs）是一种强大的回归模型。近期研究显示，包含数十亿参数的语言模型在解决多种自然语言任务时表现卓越，如翻译、摘要生成和指令执行，因而被称为大型语言模型。目前，大多数前沿的 LLMs 都基于采用查询 - 键 - 值（QKV）机制的 Transformer 块构建，该机制能高效地在词元序列中整合信息。根据注意力的应用方向和训练方式，语言模型可分为两大类型：

掩码语言建模（Masked Language Modeling, MLM）是一种广受欢迎的 LLMs 预训练目标。它涉及在序列中选择性地掩盖特定的词元，并训练模型依据周边上下文预测这些被掩盖的词元。为实现精准预测，模型会综合考虑被掩盖词元的前后文环境。
因果语言建模（Causal Language Modeling, CLM）是另一种主流的 LLMs 预训练目标。它要求模型根据序列中先前的词元预测下一个词元。在此过程中，模型仅依据当前词元之前的上下文来进行准确的预测。

2 图学习与大语言模型

51c大模型~合集6_语言模型_18

在这篇综述文章中，作者依据模型的推理流程 —— 即图数据、文本数据的处理方式以及与大型语言模型（LLMs）的交互方式，提出了一种新的分类方法。具体而言，我们归纳了四种主要的模型架构设计类型，具体如下：

GNNs as Prefix（GNNs 作为前缀）：在此类别中，图神经网络（GNNs）作为首要组件，负责处理图数据，并为 LLMs 提供具有结构感知的标记（如节点级、边级或图级标记），以供后续推理使用。
LLMs as Prefix（LLMs 作为前缀）：在这一类别中，LLMs 首先处理附带文本信息的图数据，随后为图神经网络的训练提供节点嵌入或生成的标签。
LLMs-Graphs Integration（LLMs 与图集成）：该类别的方法致力于实现 LLMs 与图数据之间更为深入的整合，例如通过融合训练或与 GNNs 的对齐。此外，还构建了基于 LLM 的智能体（agent），以便与图信息进行交互。
LLMs-Only（仅使用 LLMs）：此类别设计了实用的提示技巧，将图结构化数据嵌入到词元序列中，从而便于 LLMs 进行推断。同时，部分方法还融合了多模态标记，进一步丰富了模型的处理能力。

2.1 GNNs as Prefix

51c大模型~合集6_语言模型_19

在图神经网络（GNNs）作为前缀的方法体系中，GNNs 发挥着结构编码器的作用，显著提升了大型语言模型（LLMs）对图结构数据的解析能力，从而为多种下游任务带来益处。这些方法里，GNNs 主要作为编码器，负责将复杂的图数据转换为包含丰富结构信息的图 token 序列，这些序列随后被输入到 LLMs 中，与自然语言处理流程相契合。

这些方法大体上可分为两类：首先是节点级 Token 化，即将图结构中的每个节点单独输入到 LLM 中。这一做法的目的是使 LLM 能够深入理解细粒度的节点级结构信息，并准确辨别不同节点间的关联与差异。其次是图级 Token 化，它采用特定的池化技术将整个图压缩为固定长度的 token 序列，旨在捕捉图结构的整体高级语义。

对于节点级 Token 化而言，它特别适用于需要建模节点级别精细结构信息的图学习任务，如节点分类和链接预测。在这些任务中，模型需要能够区分不同节点间的细微语义差别。传统的图神经网络会根据相邻节点的信息为每个节点生成一个独特的表示，然后基于此进行下游的分类或预测。节点级 Token 化方法能够最大限度地保留每个节点的特有结构特征，对下游任务的执行大有裨益。

另一方面，图级 Token 化则是为了适应那些需要从节点数据中提炼全局信息的图级任务。在 GNN 作为前缀的框架下，通过各种池化操作，图级 Token 化能够将众多节点表示综合成一个统一的图表示，这样不仅能够捕获图的全局语义，还能进一步提升各类下游任务的执行效果。

2.2 LLMs as Prefix

51c大模型~合集6_数据集_20

大语言模型（LLMs）前缀法利用大型语言模型生成的丰富信息来优化图神经网络（GNNs）的训练过程。这些信息涵盖了文本内容、LLMs 产生的标签或嵌入等多种数据。根据这些信息的应用方式，相关技术可分为两大类：一是利用 LLMs 生成的嵌入来助力 GNNs 的训练；二是将 LLMs 生成的标签整合到 GNNs 的训练流程中。

在利用 LLMs 嵌入方面，GNNs 的推理过程涉及节点嵌入的传递与聚合。然而，初始节点嵌入的质量和多样性在不同领域中差异显著，例如推荐系统中的 ID 基础嵌入或引文网络中的词袋模型嵌入，可能缺乏清晰度和丰富性。这种嵌入质量的不足有时会限制 GNNs 的性能表现。此外，缺乏通用的节点嵌入设计也影响了 GNNs 在处理不同节点集时的泛化能力。幸运的是，通过借助大型语言模型在语言总结和建模方面的卓越能力，我们可以为 GNNs 生成富有意义和效果的嵌入，从而提升其训练效果。

在整合 LLMs 标签方面，另一种策略是将这些标签作为监督信号，以增强 GNNs 的训练效果。值得注意的是，这里的监督标签不仅限于传统的分类标签，还包括嵌入、图等多种形式。由 LLMs 生成的信息并不直接作为 GNNs 的输入数据，而是构成了更为精细的优化监督信号，从而帮助 GNNs 在各种图相关任务上取得更加卓越的性能。

2.3 LLMs-Graphs Intergration

51c大模型~合集6_数据_21

该类方法进一步整合了大型语言模型与图数据，涵盖多样化的方法论，不仅提升了大型语言模型（LLMs）在图处理任务中的能力，同时也优化了图神经网络（GNNs）的参数学习。这些方法可被归纳为三种类型：一是 GNNs 与 LLMs 的融合，旨在实现模型间的深度整合与共同训练；二是 GNNs 与 LLMs 之间的对齐，专注于两种模型在表示或任务层面上的对齐；三是构建基于 LLMs 的自主智能体，以规划和执行图相关任务。

在 GNNs 与 LLMs 的融合方面，通常 GNNs 专注于处理结构化数据，而 LLMs 则擅长处理文本数据，这导致两者具有不同的特征空间。为了解决这一问题，并促进两种数据模态对 GNNs 和 LLMs 学习的共同增益，一些方法采用对比学习或期望最大化（EM）迭代训练等技术，以对齐两个模型的特征空间。这种做法提升了图和文本信息的建模精度，从而在各种任务中提高了性能。

关于 GNNs 与 LLMs 的对齐，尽管表示对齐实现了两个模型的共同优化和嵌入级别的对齐，但在推理阶段它们仍是独立的。为了实现 LLMs 和 GNNs 之间更紧密的集成，一些研究聚焦于设计更深层次的模块架构融合，例如将 LLMs 中的变换器层与 GNNs 中的图神经层相结合。通过共同训练 GNNs 和 LLMs，可以在图任务中为两个模块带来双向的增益。

最后，在基于 LLM 的图智能体方面，借助 LLMs 在指令理解和自我规划解决问题上的出色能力，新的研究方向是构建基于 LLMs 的自主智能体，以处理人类给出的或与研究相关的任务。通常情况下，这样的智能体包括记忆、感知和行动三个模块，形成观察、记忆回忆和行动的循环，用于解决特定任务。在图论领域，基于 LLMs 的智能体能够直接与图数据进行交互，执行如节点分类和链接预测等任务。

2.4 LLMs-Only

51c大模型~合集6_数据集_22

该综述在 LLMs-Only 的章节中详细阐述了直接将大型语言模型（LLMs）应用于各种以图为导向任务的情况，即所谓的 “仅 LLMs” 类别。这些方法的目标是让 LLMs 能够直接接受图结构信息，理解它，并结合这些信息对各种下游任务进行推理。这些方法主要可以分为两大类：i）无需微调的方法，旨在设计 LLMs 能够理解的提示，直接促使预训练的 LLMs 执行以图为导向的任务；ii）需要微调的方法，专注于将图转换为特定方式的序列，并通过微调方法对齐图 token 序列和自然语言 token 序列。

无需微调的方法：鉴于图数据独特的结构特性，出现了两个关键挑战：一是有效地用自然语言格式构建图；二是确定大型语言模型（LLMs）是否能够准确理解以语言形式表示的图结构。为了解决这些问题，一部分研究人员开发了无需调整的方法，在纯文本空间内对图进行建模和推理，从而探索预训练 LLMs 在增强结构理解方面的潜力。

需要微调的方法：由于使用纯文本表达图结构信息存在局限性，近期的主流方法是在将图输入到大型语言模型（LLMs）时，将图作为节点 token 序列与自然语言 token 序列对齐。与前述的 GNN 作为前缀的方法不同，需要调整的仅 LLM 方法放弃了图编码器，转而采用特定的文本描述来体现图结构，并且在提示中精心设计了 prompts，这在各种下游图相关任务中取得了有希望的表现。

3 未来的研究方向

该综述还讨论了大型语言模型在图领域的一些开放问题和潜在的未来研究方向：

多模态图与大型语言模型（LLMs）的融合。近期研究显示，大型语言模型在处理和理解图像、视频等多模态数据方面表现出非凡能力。这一进步为将 LLMs 与包含多种模态特征的多模态图数据相结合提供了新的契机。研发能够处理此类图数据的多模态 LLMs，将使我们在综合考虑文本、视觉、听觉等多种数据类型的基础上，对图结构进行更为精确和全面的推理。

提升效率与降低计算成本。目前，LLMs 的训练和推理阶段涉及的高昂计算成本已成为其发展的重大瓶颈，制约了它们处理包含数百万节点的大规模图数据的能力。当尝试将 LLMs 与图神经网络（GNNs）结合时，由于两种强大模型的融合，这一挑战变得更为严峻。因此，亟待发现并实施有效策略，以降低 LLMs 和 GNNs 的训练计算成本，这不仅有助于缓解当前面临的限制，还将进一步拓展 LLMs 在图相关任务中的应用范围，从而提升它们在数据科学领域的实用价值和影响力。

应对多样化的图任务。当前的研究方法主要集中在传统的图相关任务上，例如链接预测和节点分类。但考虑到 LLMs 的强大能力，我们有必要深入探索其在处理更为复杂和生成性任务方面的潜力，如图生成、图理解以及基于图的问题回答等。通过扩展基于 LLM 的方法以涵盖这些复杂任务，我们将为 LLMs 在不同领域的应用开辟无数新机遇。例如，在药物研发领域，LLMs 可以促进新分子结构的生成；在社交网络分析领域，它们可以提供对复杂关系模式的深入洞察；在知识图谱构建方面，LLMs 则有助于创建更加全面且上下文准确的知识库。

构建用户友好的图智能体。目前，大多数为图相关任务设计的基于 LLM 的智能体都是针对单一任务定制的。这些智能体通常采用单次运行模式，旨在一次性解决问题。然而，理想的基于 LLM 的智能体应具备用户友好性，并且能够动态地在图数据中搜索答案，以响应用户提出的多样化开放式问题。为实现这一目标，我们需要开发一个既灵活又稳健的智能体，它能够与用户进行迭代交互，并熟练应对图数据的复杂性，提供准确且相关的答案。这将要求智能体不仅具备高度的适应性，还需展现出强大的稳健性。

4 总结

该综述对图数据定制的大型语言模型（LLMs）进行了深入探讨，并提出了基于模型的推理框架设的分类方法，将不同的模型细致地划分为四种各具特色的框架设计。每一种设计都展现出其独特的优点与局限性。不仅如此，该综述还对这些特性展开了全面的讨论，深入挖掘了每一种框架在应对图数据处理任务时的潜力和挑战。此项调研工作旨在为那些热衷于探索并应用大型语言模型来解决图相关问题的研究人员提供参考资源，并且希望最终通过这项工作，推动对 LLMs 与图数据结合应用的更深层次理解，进一步催生该领域的技术创新和突破。

#agents

可「自主进化」的Agent？首个端到端智能体符号化训练框架开源了

本文主要作者来自波形智能、浙江大学、和北京航空航天大学。共同一作中，周王春澍是波形智能的联合创始人和 CTO，欧翌昕是浙江大学硕士二年级，丁盛为为北京航空航天大学四年级本科生。文章的通讯作者为周王春澍和姜昱辰，姜昱辰是波形智能的联合创始人和 CEO。

随着各类大模型 API 的迭代以及各类 AI Agent 框架的开源，基于大模型的智能体在学术界和工业界收获了广泛的关注、研究、和应用。

尽管基于大模型的智能体 (AI Agent) 在很多场景都取得了不错的效果，并且在一些场景下已经能够实际落地应用，AI Agent 的研究和开发的进展仍然局限于 “expert-centric”，或者说 “engineering-centric” 的范式中。也就是说，现在的 Agent 的创建和调优过程还是几乎完全依赖人类专家 (算法工程师) 的人力和经验来设计智能体的 promtps, tools，和 workflow。这样的过程费时费力，并且注定了无法使用海量数据对智能体的这些符号化元素进行学习和训练。而大部分智能体依赖于闭源的 API 调用，无法对大模型基座本身进行优化，即使使用开源大模型，对模型基座本身的优化也在大部分 AI 智能体的应用场景中受到资源、算力、稳定性等原因而无法实际进行。因此现在的智能体还处于 “专家系统” 的发展阶段。

众所周知，神经网络成为机器学习 / 人工智能的基础范式的重要原因正是因为可以高效地使用海量数据进行训练和优化，而不需要手工设计复杂的结构和学习算法。因此，来自波形智能的研究人员们认为，AI Agent 从以专家经验为核心 (expert-centric) 到以数据为核心 (data-centric) 的转变，将会是基于大模型的智能体的一个重要发展方向。

为了实现这个目标，来自波形智能的研究团队借鉴连接主义训练神经网络 (connectionist learning) 的基本方式，即反向传播和梯度下降，将 AI Agent 和神经网络进行类比，使用文本和大模型建模损失函数、梯度、和优化器，模拟反向传播和梯度下降算法，实现对 Agent 的端到端的符号化训练算法，构建了一套可以对 AI 智能体进行端到端训练的算法框架，代码已经开源在 GitHub。

论文地址：https://arxiv.org/pdf/2406.18532
代码仓库：https://github.com/aiwaves-cn/agents

具体来说，团队首先将基于大模型的智能体解构为三个主要元素，即 prompts, tools, 和 agent pipeline (workflow)。接着，框架中将一个 Agent 系统看作是一个 “符号化” 神经网络，将 Agent workflow 中的每一个 node 看作是网络中的一个 layer，而将每个节点中的 prompts 和 tools 看作是这个 layer 的 weights，智能体的 workflow/pipeline 则可以看作是网络的计算图。这样下来，智能体系统可以看作是一个权重从数字 / 张量空间变成离散符号空间 (文字，代码都是符号化的表示) 的神经网络，而这种网络的训练自然也就可以参考传统神经网络的优化方式，即反向传播和梯度下降。

51c大模型~合集6_数据_23

图 1: Agent Symbolic Learning 框架示意图

要使传统的反向传播和梯度下降能够处理符号化的权重空间，agent symbolic learning 框架中通过文本和大模型 + 提示词的方式建模了损失，损失函数，反向传播的流程，梯度，以及基于梯度的优化器。具体来说，前向传播过程中，框架会将每一层的输入、权重、和输出都保存在计算图中。接下来，通过大模型 + 提示词的方式，在提示词中结合当前样本的输入，输出，和整体任务的描述，之后由大语言模型输出对当前样本任务完成情况的评价和总结。得到的文本形式的评价 / 总结，正如神经网络中的 loss 一样，用来衡量任务完成的好坏，研究团队将其称为 “文本形式的损失”，即 language-based loss。

之后，该研究通过大语言模型和精心设计的提示词工程，来生成智能体流程中对最后一个节点的 “反思”。反思中包括模型的输出应该怎样变化才能更符合要求，以及提示词和工具调用应该如何优化才能使输出朝这样的方向发生变化。这一内容和神经网络优化中梯度的作用刚好一致，都是包含了参数应该如何调整才能最小化整个模型的损失的信息，因此研究团队将这样的反思称作 “文本形式的梯度”，即 language-based gradient。

接下来要做的就是从后向前，得到每一层的梯度，这对于神经网络的优化至关重要。受到神经网络中基于链式法则的公式的反向传播的启发，波形智能的研究人员通过文本和大模型，用一套精心设计的 prompt 来模拟了传统神经网络优化的链式法则。具体来说，这套 prompts 让大模型基于上一层的梯度信息 (即对上一层执行任务的反思) 以及本层的输入、输出、以及权重 (这些输入和反向传播公式中的参数完全对应)，输出对当前节点的 prompt/tool usage 的反思，即当前层的 language-based gradient。这样基于文本的反向传播的方案使得该研究能够得到一个包含多个节点和复杂 workflow 的智能体中每一节点 / 层的参数的梯度，也就可以直接优化每一个 prompt 和 tool 对整个智能体性能的作用，从而实现 end-to-end 的 joint optimization。

最后，得到了每组参数的 language-based gradient 之后，框架中使用基于大模型的 optimizer，使用精心设计的 prompt，以每一层的提示词和工具调用，以及基于文本的梯度作为输入，输出优化过后的 prompts 和 tools，从而实现对智能体参数的更新。

除此之外，框架中还支持了对网络结构，即 agent workflow 的优化。具体来说，框架中将 agent workflow 以特定的编程语言进行表示，这样就将智能体网络的 “计算图” 也处理成了符号化的权重。之后通过一个单独设计的基于大模型的优化器，以当前智能体的工作流和工作流中的各个节点的文本形式的梯度为输入来对智能体的工作流进行更新。这在神经网络中训练中可以类比自动网络结构搜索相关的研究。

51c大模型~合集6_数据集_24

图 2: Agent Symbolic Learning 算法流程

51c大模型~合集6_数据_25

图 3 大模型评测任务上的实验结果

51c大模型~合集6_数据_26

图 4 智能体级别评测任务的实验结果

波形智能的研究人员在大模型和智能体的一系列 benchmark 上对该算法进行了评估，如图 3 和图 4 所示，agent symbolic learning 相比 DSpy 和传统的没有学习能力的智能体框架相比，在各类任务上都有了明显的提升，在一些任务上甚至使用 GPT-3.5 也能和其他智能体框架使用 GPT-4 的表现类似。而简单的对智能体中每一个节点中的提示词使用局部的基于大语言模型的提示词自动优化算法 (AutoPE) 则无法取得很明显的效果。另外，如图 5 所示，该算法在创意写作任务中，从初始的只基于一个提示词进行写作的单节点智能体，自主进化到了支持写作 + 编辑的工作流，并且将写作节点的提示词进行了更新和优化。

51c大模型~合集6_数据_27

图 5 Agent Symbolic Learning 框架学习效果展示 (以创意写作任务为例)

波形智能的研究团队介绍了 Agent Symbolic Learning 的两种应用场景。首先，该框架可以用于开发者或研究人员创建和调优智能体系统中。像神经网络的训练一样，开发者和研究人员可以对指定的任务收集（或者使用框架中提供的自动生成）大量的样本，之后使用该框架在大量数据上完成 “data-centric” 的智能体的训练和优化，在之后像普通智能体的部署一样，在产品生产环境中以静态的方式部署优化过后的智能体。

除此之外，该框架的另一个重要应用场景是支持能够在环境 / 交互中自主进化的 Agent。具体来说，因为该训练框架本身只需要调用大模型的能力而不需要复杂的基于 GPU 的训练和部署，因此一个 Agent 可以将该训练框架作为其自身可以调用的一个工具，通过在环境中探索或者和人类进行交互的过程中，不断收集新的训练样本，定期或者主动调用智能体训练的算法工具，对自身的 prompts, tools, 和 workflow 进行更新。波形智能在 AIWaves Agents 的开源代码库中也支持了这样的部署逻辑，实现了首个可以在被部署到实际产品和生产环境中之后，依然可以不断自主进化、自我迭代的智能体系统。

Agent Symbolic Learning 框架将 AI Agent 视作由复杂 workflow 中的 prompts 和 tools 连接而成的符号化 “神经网络”，通过基于自然语言模拟反向传播和梯度下降，使得基于大模型的智能体可以自主对自身的 “网络参数”，即 prompts 和 tools，以及 “网络结构”，即 agent workflow，进行优化，从而实现了能够高效利用大量数据和经验，进行 “data-centric learning” 的智能体框架，让能够持续自主进化的智能体系统变成了可能。目前，该框架已经在波形智能的多个产品和应用中发挥作用，解决了 Agent 人工优化和评测困难的问题。为了推进 “Data-centric Agent” 和 “Agent Learning” 的发展和研究，波形智能的研究团队也将算法的全部代码开源，期待智能体领域学术界和工业界一起探索更多更有趣的算法和应用。

欢迎大家一起扣 ~裙研究~~ 64104075

whaosoft aiot 天皓智联