five

airs-bench

收藏
Hugging Face2026-03-09 更新2026-03-11 收录
下载链接:
https://huggingface.co/datasets/facebook/airs-bench
下载链接
链接失效反馈
官方服务:
资源简介:
AIRS-Bench(AI研究科学基准)是一个用于量化LLM代理在机器学习领域自主研究能力的基准测试。该数据集包含20个来自前沿机器学习论文的任务,涵盖多个领域:自然语言处理(NLP)、代码、数学、生化建模和时间序列预测。每个任务由一个⟨问题、数据集、指标⟩三元组和一个SOTA(最先进)值定义。代理接收完整的任务规范,并需要开发一个解决方案以生成测试集的预测,然后进行评估并与已发表论文中的SOTA分数进行比较。数据集包含任务规范文件,适用于aira-dojo代理工具。任务分为多个类别,包括文本分类、问答、文本提取与匹配、分子与蛋白质机器学习、时间序列、代码和数学。每个任务的数据字段包括任务标识符、类别、研究问题、数据集标识符、评估指标以及多个脚本文件(如元数据文件、任务提示、数据集准备脚本、评估脚本等)。数据集采用CC BY-NC 4.0许可证发布。
提供机构:
AI at Meta
创建时间:
2026-03-06
搜集汇总
数据集介绍
main_image_url
构建方式
在人工智能研究的前沿领域,AIRS-Bench的构建遵循严谨的学术范式,旨在系统评估大型语言模型在机器学习研究中的自主能力。该数据集精心遴选了20项源自顶尖机器学习论文的任务,覆盖自然语言处理、代码生成、数学推理、生物化学建模及时间序列预测等多个学科范畴。每个任务均以⟨问题、数据集、评估指标⟩三元组形式呈现,并附带已发表的最高性能基准值,确保了任务定义的完整性与可比性。数据集的构建过程深度融合了领域专家的知识,通过标准化的元数据文件与配套脚本,为智能体提供了清晰的研究框架与可复现的实验环境。
特点
AIRS-Bench的显著特征在于其跨领域的任务集成与结构化的评估体系。数据集将多样化的研究挑战归纳为七大类别,包括文本分类、问答、分子与蛋白质机器学习等,体现了机器学习研究的广度与深度。每个任务不仅包含明确的研究问题与数据集标识,还提供了完整的评估脚本与数据预处理工具,支持智能体从问题理解到解决方案验证的全流程自动化。这种设计使得数据集不仅能衡量模型在单一任务上的表现,更能综合考察其跨领域迁移与自主研究的能力,为前沿AI系统的科学探索提供了多维度的测评基准。
使用方法
使用AIRS-Bench时,研究者可借助配套的aira-dojo智能体框架,系统开展自主研究能力的评估。智能体接收包含任务描述、数据集信息与评估指标的项目说明后,需自主设计解决方案,并在隐藏标签的测试集上生成预测结果。随后,通过调用数据集内置的评估脚本,将预测结果与已发表的最高性能基准进行量化比较。这一流程模拟了真实科研环境中从问题定义到成果验证的完整周期,使得评估不仅关注最终性能,更强调智能体在复杂研究任务中的规划、执行与迭代能力。数据集提供的标准化接口确保了评估过程的可靠性与可复现性。
背景与挑战
背景概述
在人工智能研究的前沿领域,评估大型语言模型(LLM)代理的自主科研能力已成为推动智能系统发展的核心议题。AIRS-Bench(AI Research Science Benchmark)由Meta(Facebook)研究团队于2026年正式推出,旨在通过一套涵盖自然语言处理、代码生成、数学推理、生物化学建模及时间序列预测等多元领域的20项任务,系统量化LLM代理在机器学习研究中的自主问题解决能力。该基准通过⟨问题、数据集、指标⟩三元组及对应的最优性能(SOTA)值,模拟真实科研场景,要求代理基于完整任务描述自主开发解决方案并生成预测,从而为前沿AI研究提供了标准化评估框架,显著促进了智能代理在复杂科学探索中的应用与验证。
当前挑战
AIRS-Bench所针对的核心挑战在于如何精准评估LLM代理在开放、动态的科研环境中的自主创新能力,这要求基准不仅涵盖多领域复杂任务,还需模拟从问题理解到方案实现的完整研究流程。构建过程中的挑战主要体现在任务设计的多样性与真实性平衡上:需从顶级机器学习论文中筛选代表性任务,确保其覆盖文本分类、问答、分子蛋白质预测、时间序列等异构领域,同时维护数据集的标准化格式与可复现性;此外,基准需集成异构评估指标(如准确率、平均绝对误差、Rouge分数等),并设计自动化评估脚本以隐藏测试标签,防止代理过拟合,从而保证评估的公正性与严谨性。
常用场景
经典使用场景
在人工智能研究领域,AIRS-Bench作为一套前沿的基准测试套件,其经典使用场景聚焦于评估大型语言模型(LLM)代理在机器学习任务中的自主研究能力。该数据集通过精心设计的20项任务,覆盖文本分类、问答、分子蛋白质建模、时间序列预测及代码生成等多个子领域,为研究者提供了一个标准化的测试平台,用以衡量AI代理在理解复杂研究问题、设计解决方案并生成预测结果方面的综合表现。
实际应用
在实际应用层面,AIRS-Bench为开发具备自主科研能力的AI代理提供了关键的训练与验证环境。该数据集可被广泛应用于自动化机器学习(AutoML)系统、智能科研助手以及跨学科问题求解平台的构建中,帮助提升代理在真实世界复杂任务(如药物发现、代码优化或时间序列分析)中的表现,加速科学实验与工程实践的迭代进程。
衍生相关工作
围绕AIRS-Bench衍生的经典工作主要集中在增强AI代理的自主研究框架与评估方法上。例如,基于其任务规范开发的aira-dojo等代理化工具链,进一步优化了任务执行与评估流程;同时,该数据集也激励了针对多模态学习、元学习以及强化学习在科研代理中的应用研究,推动了如自主文献综述、实验设计自动化等新兴方向的探索。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作