DATASETRESEARCH

Name: DATASETRESEARCH
Creator: 上海交通大学, SII, GAIR
Published: 2025-08-09 20:15:08
License: 暂无描述

arXiv2025-08-09 更新2025-08-13 收录

下载链接：

http://www.gair-nlp.com/DatasetResearch

下载链接

链接失效反馈

官方服务：

资源简介：

DATASETRESEARCH是一个全面评估人工智能代理在按需数据集发现和综合方面的能力的基准。该基准包含了来自Huggingface和PaperswithCode的208个真实世界的数据集需求，涵盖了六大自然语言处理任务。数据集的构建过程首先从超过100万个候选数据集中筛选出208个实例，然后利用OpenAI的o3模型处理相关的README文件和数据样本，生成六维度的元数据。最后，o3模型合成这些元数据以生成对应的数据集需求。DATASETRESEARCH旨在评估搜索代理和推理代理在数据集发现和综合方面的能力，通过元数据评估、少样本性能评估和监督微调效果等三个评估方法来衡量代理系统的性能。

DATASETRESEARCH is a benchmark for comprehensively evaluating the capabilities of AI Agents in on-demand dataset discovery and synthesis. This benchmark includes 208 real-world dataset requirements sourced from Hugging Face and Papers with Code, covering six natural language processing tasks. The construction process of the benchmark first selects 208 instances from over one million candidate datasets, then utilizes OpenAI's o3 model to process the corresponding README files and data samples, generating six-dimensional metadata. Finally, the o3 model synthesizes these metadata to generate the corresponding dataset requirements. DATASETRESEARCH aims to evaluate the capabilities of search agents and reasoning agents in dataset discovery and synthesis, measuring the performance of agent systems through three evaluation methods: metadata evaluation, few-shot performance evaluation, and supervised fine-tuning effect.

提供机构：

上海交通大学, SII, GAIR

创建时间：

2025-08-09

搜集汇总

数据集介绍

构建方式

DATASETRESEARCH的构建采用多阶段筛选与优化流程，首先从HuggingFace和PapersWithCode平台筛选出208个具有代表性的真实数据集需求，涵盖知识密集型和推理密集型任务。通过OpenAI o3模型生成全面的元数据，包括任务描述、问题、输入输出规范及示例，并基于此生成自然语言查询对。数据收集过程严格遵循真实性、自动化评估可行性和结构清晰性原则，确保数据集的高质量和可评估性。

使用方法

使用DATASETRESEARCH时，可通过搜索代理、合成代理和深度研究代理三种范式进行数据发现。评估时采用标准化流程：首先比较发现数据集与参考数据集的元数据相似度，然后通过少样本学习和监督微调评估下游任务性能。对于最具挑战性的DatasetResearch-pro子集，可扩展评估至最先进的深度研究代理。所有评估均使用LLaMA-3.1-8B模型，确保结果可比性。

背景与挑战

背景概述

DATASETRESEARCH是由上海交通大学、SII和GAIR的研究团队于2025年提出的首个面向需求驱动数据集发现的智能体系统基准测试。该数据集针对AI发展中数据可用性瓶颈问题，旨在评估AI智能体从专业存储库、研究附录和领域平台中发现和合成符合特定用户需求数据集的能力。数据集包含208个真实世界需求，涵盖知识密集型和推理密集型任务，为自动化数据发现和合成提供了首个系统性评估框架。

当前挑战

DATASETRESEARCH面临的核心挑战包括：1) 领域问题方面，现有智能体在极端案例（corner cases）上的表现显著下降，即使最先进的深度研究系统在DatasetResearch-pro子集上仅达到22%的评分；2) 构建过程中，需要处理来自HuggingFace和PapersWithCode的海量候选数据集，并确保数据质量、任务多样性和评估维度（元数据对齐、小样本学习和监督微调）的全面性。

常用场景

经典使用场景

DATASETRESEARCH作为首个面向需求驱动型数据集发现的智能体评估基准，其经典使用场景聚焦于验证AI系统在知识密集型与推理密集型任务中的数据集发现与合成能力。通过208个真实世界需求任务（涵盖文本分类、问答系统等6类NLP任务），研究者可系统测试搜索智能体、合成智能体及深度研究智能体在元数据匹配、少样本评估和监督微调等三维评估框架下的表现，尤其适用于评估智能体在长尾分布数据发现和复杂逻辑推理场景中的边界性能。

解决学术问题

该基准解决了AI发展中数据获取瓶颈的核心学术问题：其一，量化评估智能体跨领域数据集发现的泛化能力，揭示当前系统在知识覆盖（搜索智能体优势）与逻辑构建（合成智能体优势）间的性能二分现象；其二，通过DatasetResearch-pro子集（20个高难度任务）暴露现有方法在分布外极端案例上的 catastrophic failure，为突破数据依赖型智能体的固有局限提供实证基础；其三，建立首个融合元数据对齐与下游任务性能的多维评估标准，推动自动化数据发现从启发式探索向可量化评估的范式转变。

实际应用

在实际应用中，DATASETRESEARCH可赋能多类场景：科研领域支持自动构建领域专用数据集（如法律推理、医学编码等垂直领域），显著降低数据准备成本；工业界助力开发自适应数据发现系统，例如为金融风控模型动态补充新兴风险案例库；教育领域可生成个性化教学题库，通过智能体合成符合特定认知目标的训练数据。其分层评估体系尤其适用于验证企业级数据中台的数据治理能力，确保AI应用能持续获取高质量、合规的数据供给。

数据集最近研究