airs-bench

Name: airs-bench
Creator: AI at Meta
Published: 2026-03-09 19:47:23
License: 暂无描述

Hugging Face2026-03-09 更新2026-03-11 收录

下载链接：

https://huggingface.co/datasets/facebook/airs-bench

下载链接

链接失效反馈

官方服务：

资源简介：

AIRS-Bench（AI研究科学基准）是一个用于量化LLM代理在机器学习领域自主研究能力的基准测试。该数据集包含20个来自前沿机器学习论文的任务，涵盖多个领域：自然语言处理（NLP）、代码、数学、生化建模和时间序列预测。每个任务由一个⟨问题、数据集、指标⟩三元组和一个SOTA（最先进）值定义。代理接收完整的任务规范，并需要开发一个解决方案以生成测试集的预测，然后进行评估并与已发表论文中的SOTA分数进行比较。数据集包含任务规范文件，适用于aira-dojo代理工具。任务分为多个类别，包括文本分类、问答、文本提取与匹配、分子与蛋白质机器学习、时间序列、代码和数学。每个任务的数据字段包括任务标识符、类别、研究问题、数据集标识符、评估指标以及多个脚本文件（如元数据文件、任务提示、数据集准备脚本、评估脚本等）。数据集采用CC BY-NC 4.0许可证发布。

提供机构：

AI at Meta

创建时间：

2026-03-06

搜集汇总

数据集介绍

构建方式

在人工智能研究的前沿领域，AIRS-Bench的构建遵循严谨的学术范式，旨在系统评估大型语言模型在机器学习研究中的自主能力。该数据集精心遴选了20项源自顶尖机器学习论文的任务，覆盖自然语言处理、代码生成、数学推理、生物化学建模及时间序列预测等多个学科范畴。每个任务均以⟨问题、数据集、评估指标⟩三元组形式呈现，并附带已发表的最高性能基准值，确保了任务定义的完整性与可比性。数据集的构建过程深度融合了领域专家的知识，通过标准化的元数据文件与配套脚本，为智能体提供了清晰的研究框架与可复现的实验环境。

特点

AIRS-Bench的显著特征在于其跨领域的任务集成与结构化的评估体系。数据集将多样化的研究挑战归纳为七大类别，包括文本分类、问答、分子与蛋白质机器学习等，体现了机器学习研究的广度与深度。每个任务不仅包含明确的研究问题与数据集标识，还提供了完整的评估脚本与数据预处理工具，支持智能体从问题理解到解决方案验证的全流程自动化。这种设计使得数据集不仅能衡量模型在单一任务上的表现，更能综合考察其跨领域迁移与自主研究的能力，为前沿AI系统的科学探索提供了多维度的测评基准。

使用方法

使用AIRS-Bench时，研究者可借助配套的aira-dojo智能体框架，系统开展自主研究能力的评估。智能体接收包含任务描述、数据集信息与评估指标的项目说明后，需自主设计解决方案，并在隐藏标签的测试集上生成预测结果。随后，通过调用数据集内置的评估脚本，将预测结果与已发表的最高性能基准进行量化比较。这一流程模拟了真实科研环境中从问题定义到成果验证的完整周期，使得评估不仅关注最终性能，更强调智能体在复杂研究任务中的规划、执行与迭代能力。数据集提供的标准化接口确保了评估过程的可靠性与可复现性。

背景与挑战

背景概述

在人工智能研究的前沿领域，评估大型语言模型（LLM）代理的自主科研能力已成为推动智能系统发展的核心议题。AIRS-Bench（AI Research Science Benchmark）由Meta（Facebook）研究团队于2026年正式推出，旨在通过一套涵盖自然语言处理、代码生成、数学推理、生物化学建模及时间序列预测等多元领域的20项任务，系统量化LLM代理在机器学习研究中的自主问题解决能力。该基准通过⟨问题、数据集、指标⟩三元组及对应的最优性能（SOTA）值，模拟真实科研场景，要求代理基于完整任务描述自主开发解决方案并生成预测，从而为前沿AI研究提供了标准化评估框架，显著促进了智能代理在复杂科学探索中的应用与验证。

当前挑战

AIRS-Bench所针对的核心挑战在于如何精准评估LLM代理在开放、动态的科研环境中的自主创新能力，这要求基准不仅涵盖多领域复杂任务，还需模拟从问题理解到方案实现的完整研究流程。构建过程中的挑战主要体现在任务设计的多样性与真实性平衡上：需从顶级机器学习论文中筛选代表性任务，确保其覆盖文本分类、问答、分子蛋白质预测、时间序列等异构领域，同时维护数据集的标准化格式与可复现性；此外，基准需集成异构评估指标（如准确率、平均绝对误差、Rouge分数等），并设计自动化评估脚本以隐藏测试标签，防止代理过拟合，从而保证评估的公正性与严谨性。

常用场景

经典使用场景

在人工智能研究领域，AIRS-Bench作为一套前沿的基准测试套件，其经典使用场景聚焦于评估大型语言模型（LLM）代理在机器学习任务中的自主研究能力。该数据集通过精心设计的20项任务，覆盖文本分类、问答、分子蛋白质建模、时间序列预测及代码生成等多个子领域，为研究者提供了一个标准化的测试平台，用以衡量AI代理在理解复杂研究问题、设计解决方案并生成预测结果方面的综合表现。

实际应用

在实际应用层面，AIRS-Bench为开发具备自主科研能力的AI代理提供了关键的训练与验证环境。该数据集可被广泛应用于自动化机器学习（AutoML）系统、智能科研助手以及跨学科问题求解平台的构建中，帮助提升代理在真实世界复杂任务（如药物发现、代码优化或时间序列分析）中的表现，加速科学实验与工程实践的迭代进程。

衍生相关工作

围绕AIRS-Bench衍生的经典工作主要集中在增强AI代理的自主研究框架与评估方法上。例如，基于其任务规范开发的aira-dojo等代理化工具链，进一步优化了任务执行与评估流程；同时，该数据集也激励了针对多模态学习、元学习以及强化学习在科研代理中的应用研究，推动了如自主文献综述、实验设计自动化等新兴方向的探索。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集