AutoBench

Name: AutoBench
Creator: 新加坡国立大学, Mila-Quebec AI研究所, Meta (Facebook)
Published: 2025-02-21 13:35:20
License: 暂无描述

arXiv2025-02-21 更新2025-02-25 收录

下载链接：

http://arxiv.org/abs/2502.15224v1

下载链接

链接失效反馈

官方服务：

资源简介：

AutoBench是一个新颖的基准测试，旨在评估大型语言模型在自然科学和社会科学中进行科学发现的能力。它基于因果图发现的原理，挑战模型揭示隐藏的结构并做出最优决策。模型通过与一个知道因果图真相的Oracle进行交互，迭代地精炼对底层交互的理解，包括化学和社会互动。

AutoBench is a novel benchmark designed to evaluate the ability of large language models (LLMs) to conduct scientific discovery in natural and social sciences. Grounded in the principles of causal graph discovery, it challenges models to uncover hidden structures and make optimal decisions. Models interact with an Oracle that knows the ground-truth causal graph, iteratively refining their understanding of underlying interactions, including chemical and social interactions.

提供机构：

新加坡国立大学, Mila-Quebec AI研究所, Meta (Facebook)

创建时间：

2025-02-21

搜集汇总

数据集介绍

构建方式

AutoBench数据集的构建基于因果图发现原则，旨在评估大型语言模型（LLMs）在科学发现方面的能力。数据集包含两个核心设置：化学和社会网络。在化学设置中，使用有向无环图（DAGs）模拟化学反应，以评估LLMs对有向图的理解和推理能力。在社会网络设置中，通过无向图模拟真实世界的社交互动，以评估LLMs在处理无向图时的表现。两个设置都通过逐步增加因果图的复杂性来分析LLMs的能力。

特点

AutoBench数据集的特点包括其基于因果图发现的设计，该设计挑战模型揭示隐藏的结构并通过与一个Oracle的交互式对话来做出最优决策。数据集包含两个实验设置：化学和社会网络，每个设置都通过一系列的干预和观察来评估LLMs的表现。此外，数据集还包括一个长轨迹跟踪评估，以测试LLMs在处理长序列信息时的能力。

使用方法

使用AutoBench数据集时，首先需要了解数据集的两个核心设置：化学和社会网络。然后，可以根据数据集中的任务描述和提供的观察和干预来生成假设的邻接矩阵。模型需要根据当前状态观察来建议新的干预，以获取额外的数据。这个过程会一直持续，直到模型的假设邻接矩阵与底层的真实邻接矩阵相匹配，或者达到预定义的循环限制。此外，还可以使用数据集中的长轨迹跟踪评估来测试LLMs在处理长序列信息时的能力。

背景与挑战

背景概述

AutoBench是一个为评估大型语言模型（LLMs）在自然科学和社会科学领域进行科学发现的能力而设计的自动化基准。该数据集由陈婷婷、安努玛萨、林贝贝、沙阿、戈亚尔、柳迪安博等研究人员于2025年提出，并由新加坡国立大学、Mila-Quebec AI研究所和Meta（Facebook）共同开发。AutoBench的核心研究问题是评估LLMs在科学发现方面的能力，特别是它们是否能够像人类科学家一样进行研究和发现新知识。AutoBench基于因果图发现的原则，要求模型揭示隐藏的结构并做出最佳决策，包括生成有效的理由。通过与一个神谕交互，模型可以迭代地更新对底层交互、化学和社会交互的理解。该数据集对相关领域的影响在于，它揭示了LLMs在科学发现方面的局限性和潜力，为未来LLMs的发展提供了重要的参考。

当前挑战

AutoBench面临的挑战主要包括：1) LLMs在解决领域问题（如图像分类）方面的挑战；2) 构建过程中所遇到的挑战。LLMs在处理复杂因果图时的性能显著下降，表明机器智能与人类智能之间存在重要差距。此外，LLMs在捕获和处理长期轨迹信息方面存在局限性，这需要在未来的研究中得到解决。为了更好地模拟现实世界的科学发现，AutoBench的未来工作应该考虑更动态、连续或概率性的因果系统，并探索更先进的技巧来增强时间注意力机制。

常用场景

经典使用场景

AutoBench数据集主要用于评估大型语言模型（LLMs）在科学发现方面的能力，特别是在自然和社会科学领域。该数据集挑战模型揭示隐藏的结构并做出最佳决策，包括生成有效的解释。通过交互式地与一个Oracle进行交互，模型可以迭代地改进对底层交互、化学和社会交互的理解。

实际应用

AutoBench数据集的实际应用场景包括材料发现、合成生物学等领域。例如，在材料发现中，LLMs可以利用AutoBench数据集来理解材料之间的因果关系，并预测新的材料特性。在合成生物学中，LLMs可以利用AutoBench数据集来理解生物体之间的相互作用，并设计新的生物合成途径。

衍生相关工作

AutoBench数据集的衍生相关工作包括基于因果图结构发现的LLMs方法。例如，Jiralerspong等人（2024）提出了一种高效的因果图发现方法，利用LLMs来查询变量之间的边是否存在。Long等人（2023）提出了一种基于LLMs的因果图发现方法，通过减少查询次数来提高效率。Choi等人（2022）提出了一种将LLMs作为任务特定先验的方法，用于因果推理。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集