每日学术速递5.20-CFANZ编程社区

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Subjects: cs.CV

1.Improved baselines for vision-language pre-training

每日学术速递5.20_人工智能

标题：改进视觉语言预训练的基线

文章链接：https://arxiv.org/abs/2305.08675

每日学术速递5.20_计算机视觉_02

每日学术速递5.20_深度学习_03

每日学术速递5.20_计算机视觉_04

每日学术速递5.20_人工智能_05

每日学术速递5.20_计算机视觉_06

摘要：

的性能，并且始终优于之前的工作（在最大数据集上高达 +4%），同时变得更加简单。

Subjects: cs.CL

2.ArtGPT-4: Artistic Vision-Language Understanding with Adapter-enhanced MiniGPT-4

每日学术速递5.20_机器学习_07

标题：ArtGPT-4：使用 Adapter-enhanced MiniGPT-4 进行艺术视觉-语言理解

文章链接：https://arxiv.org/abs/2305.07490

项目代码：https://huggingface.co/Tyrannosaurus/ArtGPT-4

每日学术速递5.20_深度学习_08

每日学术速递5.20_机器学习_09

每日学术速递5.20_计算机视觉_10

每日学术速递5.20_自然语言处理_11

每日学术速递5.20_计算机视觉_12

摘要：

近年来，大型语言模型 (LLM) 在自然语言处理 (NLP) 方面取得了重大进展，ChatGPT 和 GPT-4 等模型在各种语言任务中取得了令人瞩目的能力。然而，训练如此大规模的模型具有挑战性，并且通常很难找到与模型规模相匹配的数据集。使用新方法微调和训练参数较少的模型已成为克服这些挑战的有前途的方法。MiniGPT-4 就是这样一种模型，它通过利用新颖的预训练模型和创新的训练策略，实现了与 GPT-4 相当的视觉语言理解。然而，该模型在图像理解方面仍然面临一些挑战，特别是在艺术图片方面。已经提出了一种称为 ArtGPT-4 的新型多模式模型来解决这些限制。ArtGPT-4 使用 Tesla A100 设备在短短 2 小时内就图像文本对进行了训练，仅使用了大约 200 GB 的数据。该模型可以描绘具有艺术气息的图像并生成视觉代码，包括美观的 HTML/CSS 网页。此外，本文提出了用于评估视觉语言模型性能的新颖基准。在随后的评估方法中，ArtGPT-4 得分比当前 \textbf{state-of-the-art} 模型高出 1 分以上，在 6 分制上仅比艺术家低 0.25 分。

3.StructGPT: A General Framework for Large Language Model to Reason over Structured Data

每日学术速递5.20_人工智能_13

标题：StructGPT：用于推理结构化数据的大型语言模型的通用框架

文章链接：https://arxiv.org/abs/2305.09645

项目代码：https://github.com/RUCAIBox/StructGPT

每日学术速递5.20_人工智能_14

每日学术速递5.20_机器学习_15

每日学术速递5.20_人工智能_16

每日学术速递5.20_自然语言处理_17

摘要：

在本文中，我们研究了如何以统一的方式提高大型语言模型〜（LLM）对结构化数据的零样本推理能力。受 LLM 工具增强研究的启发，我们开发了一种 Iterative Reading-then-Reasoning~(IRR)方法来解决基于结构化数据的问答任务，称为StructGPT。在我们的方法中，我们构建了专门的函数来从结构化数据中收集相关证据reading），并让 LLM 基于收集到的信息 reasoning）集中推理任务。特别地，我们提出了一个invoking-linearization-generation过程来支持 LLM 在外部接口的帮助下对结构化数据进行推理。通过使用提供的接口迭代此过程，我们的方法可以逐渐接近给定查询的目标答案。对三种类型的结构化数据进行的大量实验证明了我们方法的有效性，它可以显着提高 ChatGPT 的性能，并实现与全数据监督调整基线相当的性能。

更多Ai资讯：公主号AiCharm

每日学术速递5.20_深度学习_18