BoxingGym
收藏arXiv2025-01-03 更新2025-01-07 收录
下载链接:
https://github.com/kanishkg/boxing-gym/tree/v0.1.0-beta
下载链接
链接失效反馈官方服务:
资源简介:
BoxingGym是由斯坦福大学开发的一个基准测试框架,旨在评估科学代理在实验设计和模型发现方面的能力。该数据集包含10个基于真实世界科学模型的环境,涵盖从心理学到生态学等多个领域。每个环境都实现为一个生成模型,允许代理进行交互实验,并通过计算预期信息增益(EIG)来量化实验的信息量。数据集通过GitHub公开访问,适用于评估大语言模型在科学发现中的应用,特别是在提出科学模型、收集实验数据并根据新数据修订模型方面的能力。
BoxingGym is a benchmarking framework developed by Stanford University, designed to evaluate the capabilities of scientific agents in experimental design and model discovery. This dataset includes 10 environments built on real-world scientific models, spanning multiple disciplines ranging from psychology to ecology. Each environment is implemented as a generative model, allowing agents to conduct interactive experiments and quantify the informativeness of experiments by calculating Expected Information Gain (EIG). The dataset is publicly accessible via GitHub, and is suitable for evaluating the applications of Large Language Models (LLMs) in scientific discovery, particularly their capabilities in proposing scientific models, collecting experimental data, and revising models based on new data.
提供机构:
斯坦福大学
创建时间:
2025-01-03
搜集汇总
数据集介绍

构建方式
BoxingGym数据集的构建基于生成概率模型,涵盖了从心理学到生态学等多个真实世界的科学领域。每个环境都被实现为一个生成模型,允许科学代理进行交互式实验。为了定量评估科学代理的实验设计能力,数据集引入了期望信息增益(EIG)这一信息论指标,衡量实验对生成模型参数不确定性的减少程度。此外,模型发现能力的评估通过要求代理解释其模型,并评估该解释是否能使另一个代理对该环境做出可靠预测。
特点
BoxingGym数据集的特点在于其多样化的科学领域覆盖和灵活的评估框架。数据集包含10个基于真实科学模型的环境,每个环境都通过生成模型实现,支持代理进行主动实验。数据集不仅评估实验设计,还通过自然语言解释评估模型发现能力,强调科学理论的简洁性和预测性。此外,数据集支持目标驱动的发现过程,允许用户指定高层次的目标来指导代理的发现过程。
使用方法
BoxingGym数据集的使用方法包括实验设计、模型发现和解释评估。用户首先定义科学代理的目标,代理随后提出理论并设计实验以收集数据。通过分析新旧数据,代理提出并修正理论。最终,代理被要求向新手解释其发现,并通过预测问题评估新手和代理的表现。数据集提供了基于贝叶斯最优实验设计的评估指标,如期望信息增益(EIG),以及基于自然语言解释的模型发现评估策略。
背景与挑战
背景概述
BoxingGym是由斯坦福大学的研究团队于2025年提出的一个基准测试数据集,旨在系统评估大语言模型(LLMs)在科学发现中的实验设计和模型发现能力。该数据集包含10个基于真实科学领域的生成模型环境,涵盖了从心理学到生态学的多个学科。BoxingGym的核心研究问题是如何通过实验设计和模型发现来推动科学理论的提出、验证和修订。该数据集的创建灵感来源于George Box的科学建模框架,强调通过迭代的实验和模型修订来理解复杂系统。BoxingGym的提出填补了现有基准测试在评估LLMs科学发现能力方面的空白,并为未来的研究提供了重要的工具。
当前挑战
BoxingGym面临的主要挑战包括两个方面:首先,在实验设计方面,如何通过有限的数据设计出信息量最大的实验,以减少模型参数的不确定性,是一个关键问题。其次,在模型发现方面,如何从实验数据中提出简洁且具有预测能力的科学理论,并通过自然语言解释这些理论,使得其他研究者能够基于这些解释做出准确的预测,也是一个重要的挑战。此外,构建BoxingGym时,研究人员还面临如何将复杂的科学模型转化为可计算的生成模型,并确保这些模型能够灵活适应不同科学理论的表示形式的挑战。
常用场景
经典使用场景
BoxingGym数据集主要用于评估人工智能代理在科学发现中的实验设计和模型发现能力。通过模拟真实世界的科学环境,BoxingGym提供了一个系统化的框架,用于测试代理在不同科学领域中的表现。其经典使用场景包括心理学、生态学等领域的实验设计,以及基于实验数据的模型构建与修正。
实际应用
BoxingGym的实际应用场景广泛,涵盖了从心理学到生态学的多个科学领域。例如,在心理学实验中,代理可以通过设计实验来测试参与者的行为模型,并根据实验结果修正模型。在生态学中,代理可以模拟捕食者-猎物系统的动态变化,并通过实验数据预测未来的种群变化。这些应用场景展示了BoxingGym在推动科学研究和自动化实验设计中的潜力。
衍生相关工作
BoxingGym的推出催生了一系列相关研究,特别是在自动化实验设计和模型发现领域。例如,基于BoxingGym的框架,研究人员开发了结合统计模型和语言模型的代理,以提升其在复杂科学环境中的表现。此外,BoxingGym还启发了对科学发现过程中信息增益和模型解释能力的深入研究,推动了人工智能在科学领域的应用。
以上内容由遇见数据集搜集并总结生成



