DATASETRESEARCH
收藏arXiv2025-08-09 更新2025-08-13 收录
下载链接:
http://www.gair-nlp.com/DatasetResearch
下载链接
链接失效反馈官方服务:
资源简介:
DATASETRESEARCH是一个全面评估人工智能代理在按需数据集发现和综合方面的能力的基准。该基准包含了来自Huggingface和PaperswithCode的208个真实世界的数据集需求,涵盖了六大自然语言处理任务。数据集的构建过程首先从超过100万个候选数据集中筛选出208个实例,然后利用OpenAI的o3模型处理相关的README文件和数据样本,生成六维度的元数据。最后,o3模型合成这些元数据以生成对应的数据集需求。DATASETRESEARCH旨在评估搜索代理和推理代理在数据集发现和综合方面的能力,通过元数据评估、少样本性能评估和监督微调效果等三个评估方法来衡量代理系统的性能。
DATASETRESEARCH is a benchmark for comprehensively evaluating the capabilities of AI Agents in on-demand dataset discovery and synthesis. This benchmark includes 208 real-world dataset requirements sourced from Hugging Face and Papers with Code, covering six natural language processing tasks. The construction process of the benchmark first selects 208 instances from over one million candidate datasets, then utilizes OpenAI's o3 model to process the corresponding README files and data samples, generating six-dimensional metadata. Finally, the o3 model synthesizes these metadata to generate the corresponding dataset requirements. DATASETRESEARCH aims to evaluate the capabilities of search agents and reasoning agents in dataset discovery and synthesis, measuring the performance of agent systems through three evaluation methods: metadata evaluation, few-shot performance evaluation, and supervised fine-tuning effect.
提供机构:
上海交通大学, SII, GAIR
创建时间:
2025-08-09
搜集汇总
数据集介绍
构建方式
DATASETRESEARCH的构建采用多阶段筛选与优化流程,首先从HuggingFace和PapersWithCode平台筛选出208个具有代表性的真实数据集需求,涵盖知识密集型和推理密集型任务。通过OpenAI o3模型生成全面的元数据,包括任务描述、问题、输入输出规范及示例,并基于此生成自然语言查询对。数据收集过程严格遵循真实性、自动化评估可行性和结构清晰性原则,确保数据集的高质量和可评估性。
使用方法
使用DATASETRESEARCH时,可通过搜索代理、合成代理和深度研究代理三种范式进行数据发现。评估时采用标准化流程:首先比较发现数据集与参考数据集的元数据相似度,然后通过少样本学习和监督微调评估下游任务性能。对于最具挑战性的DatasetResearch-pro子集,可扩展评估至最先进的深度研究代理。所有评估均使用LLaMA-3.1-8B模型,确保结果可比性。
背景与挑战
背景概述
DATASETRESEARCH是由上海交通大学、SII和GAIR的研究团队于2025年提出的首个面向需求驱动数据集发现的智能体系统基准测试。该数据集针对AI发展中数据可用性瓶颈问题,旨在评估AI智能体从专业存储库、研究附录和领域平台中发现和合成符合特定用户需求数据集的能力。数据集包含208个真实世界需求,涵盖知识密集型和推理密集型任务,为自动化数据发现和合成提供了首个系统性评估框架。
当前挑战
DATASETRESEARCH面临的核心挑战包括:1) 领域问题方面,现有智能体在极端案例(corner cases)上的表现显著下降,即使最先进的深度研究系统在DatasetResearch-pro子集上仅达到22%的评分;2) 构建过程中,需要处理来自HuggingFace和PapersWithCode的海量候选数据集,并确保数据质量、任务多样性和评估维度(元数据对齐、小样本学习和监督微调)的全面性。
常用场景
经典使用场景
DATASETRESEARCH作为首个面向需求驱动型数据集发现的智能体评估基准,其经典使用场景聚焦于验证AI系统在知识密集型与推理密集型任务中的数据集发现与合成能力。通过208个真实世界需求任务(涵盖文本分类、问答系统等6类NLP任务),研究者可系统测试搜索智能体、合成智能体及深度研究智能体在元数据匹配、少样本评估和监督微调等三维评估框架下的表现,尤其适用于评估智能体在长尾分布数据发现和复杂逻辑推理场景中的边界性能。
解决学术问题
该基准解决了AI发展中数据获取瓶颈的核心学术问题:其一,量化评估智能体跨领域数据集发现的泛化能力,揭示当前系统在知识覆盖(搜索智能体优势)与逻辑构建(合成智能体优势)间的性能二分现象;其二,通过DatasetResearch-pro子集(20个高难度任务)暴露现有方法在分布外极端案例上的 catastrophic failure,为突破数据依赖型智能体的固有局限提供实证基础;其三,建立首个融合元数据对齐与下游任务性能的多维评估标准,推动自动化数据发现从启发式探索向可量化评估的范式转变。
实际应用
在实际应用中,DATASETRESEARCH可赋能多类场景:科研领域支持自动构建领域专用数据集(如法律推理、医学编码等垂直领域),显著降低数据准备成本;工业界助力开发自适应数据发现系统,例如为金融风控模型动态补充新兴风险案例库;教育领域可生成个性化教学题库,通过智能体合成符合特定认知目标的训练数据。其分层评估体系尤其适用于验证企业级数据中台的数据治理能力,确保AI应用能持续获取高质量、合规的数据供给。
数据集最近研究
最新研究方向
随着大语言模型的快速发展,AI开发的瓶颈已从计算能力转向数据可用性。DATASETRESEARCH作为首个全面评估AI代理在需求驱动数据集发现能力的基准,揭示了当前技术在知识密集型与推理密集型任务中的显著性能差异。该数据集通过208个真实世界需求构建的三维评估框架显示,即使在最具挑战性的DatasetResearch-pro子集上,最先进的深度研究系统也仅达到22%的评分,凸显出现有技术与完美数据集发现之间的巨大差距。研究发现搜索代理通过检索广度在知识任务中表现优异,而合成代理则凭借结构化生成在推理挑战中占据优势,但两者在现有分布之外的“边缘案例”上均遭遇灾难性失败。这些发现不仅为数据集发现代理建立了首个严谨基线,更为构建能够发现数字宇宙中任何数据集的AI系统指明了路径。
相关研究论文
- 1DatasetResearch: Benchmarking Agent Systems for Demand-Driven Dataset Discovery上海交通大学, SII, GAIR · 2025年
以上内容由遇见数据集搜集并总结生成



