DARE-Bench
收藏github2026-03-03 更新2026-03-05 收录
下载链接:
https://github.com/Snowflake-Labs/dare-bench
下载链接
链接失效反馈官方服务:
资源简介:
DARE-Bench是一个用于评估数据科学任务中LLM代理的大规模基准,包含6,300个任务,涵盖分类、回归和时间序列预测。它提供了可验证的基准真相、过程感知的指令跟随任务以及大规模训练数据。
DARE-Bench is a large-scale benchmark for evaluating LLM agents in data science tasks. It comprises 6,300 tasks covering classification, regression, and time series forecasting, and provides verifiable ground truth, process-aware instruction-following tasks as well as large-scale training data.
创建时间:
2026-02-25
原始信息汇总
DARE-Bench 数据集概述
基本信息
- 数据集名称:DARE-Bench
- 发布机构:University of Houston, Snowflake AI Research
- 相关论文:DARE-Bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science (ICLR 2026)
- 论文链接:https://arxiv.org/abs/2602.24288
- 数据集链接:https://huggingface.co/datasets/Snowflake/dare-bench
- 代码仓库地址:https://github.com/Snowflake-Labs/dare-bench
数据集简介
DARE-Bench 是一个用于评估数据科学任务上大型语言模型(LLM)智能体性能的大规模基准测试。其核心目标是评估LLM在建模和指令遵循方面的忠实度。数据集提供了可验证的真实标签,支持客观且可复现的评估。
任务规模与构成
本仓库发布的任务子集
| 任务类型 | 描述 | 训练集任务数 | 评估集任务数 |
|---|---|---|---|
| Classification-IF | 指令遵循 | 807 | 68 |
| Classification-MM | 机器学习建模 | 807 | 68 |
| Regression-IF | 指令遵循 | 649 | 42 |
| Regression-MM | 机器学习建模 | 649 | 42 |
| Time-series-XF | 外生特征预测 | 681 | 52 |
| Time-series-CF | 经典时间序列预测 | 681 | 52 |
| 总计 | 4,274 | 324 |
论文中报告的完整数据集规模
| 任务类型 | 描述 | 训练集任务数 | 评估集任务数 |
|---|---|---|---|
| Classification-IF | 指令遵循 | 1,160 | 74 |
| Classification-MM | 机器学习建模 | 1,160 | 74 |
| Regression-IF | 指令遵循 | 899 | 45 |
| Regression-MM | 机器学习建模 | 899 | 45 |
| Time-series-XF | 外生特征预测 | 915 | 57 |
| Time-series-CF | 经典时间序列预测 | 915 | 57 |
| 总计 | 5,948 | 352 |
任务类型与结构
- 涵盖领域:分类、回归、时间序列预测。
- 任务变体:
- 对于分类和回归任务:
question_v1对应指令遵循(IF),question_v2对应机器学习建模(MM)。 - 对于时间序列分析任务:
question_v1对应外生特征预测(XF),question_v2对应经典预测(CF)。
- 对于分类和回归任务:
- 任务结构:每个任务提供一个自然语言问题和结构化文件。LLM智能体在沙箱中执行代码以生成预测,预测结果将与真实标签进行自动评估比较。
数据内容与获取
- 评估集数据:位于代码仓库的
data/eval/目录下,包含324个任务。 - 训练集数据:发布于 HuggingFace 数据集仓库,包含4,274个任务。
- 监督微调轨迹数据:发布于 HuggingFace 数据集仓库。
- 数据文件:
data/eval/databases/目录下的数据集文件遵循其原始的 Kaggle/来源许可证。
评估方法
评估指标
| 任务类型 | 变体v1(IF/XF)指标 | 变体v2(MM/CF)指标 |
|---|---|---|
| 分类 | 精确匹配(Exact Match) | 宏平均F1分数(Macro F1 Score) |
| 回归 | 精确匹配(Exact Match) | 截断R²分数(Clipped R²,0-1) |
| 时间序列 | 截断R²分数(Clipped R²,0-1) | 截断R²分数(Clipped R²,0-1) |
预测格式要求
所有任务(包括时间序列)的预测文件 prediction.csv 必须包含与 verify/ground_truth.csv 对齐的 row_id 列,以及 verify/all_metadata.json 中定义的目标列。
参考解决方案
- 每个任务在
all_metadata.json中都包含参数,这些参数指定了生成真实标签所需的确切机器学习流程(特征、模型类型、预处理)。 - 对于分类和回归的指令遵循(IF)任务,由于硬件、操作系统和Python包版本的差异,预期输出是确定性的但依赖于环境。必须在本地执行参考解决方案代码以为特定环境生成正确的真实标签。
- 参考解决方案生成器可以从任务元数据创建可执行的Python代码。
模型性能结果(基于发布子集)
下表展示了各种LLM在DARE-Bench评估任务上的性能(得分百分比):
| 模型 | Class-IF | Class-MM | Reg-IF | Reg-MM | TS-XF | TS-CF |
|---|---|---|---|---|---|---|
| GPT-4o | 31.86 | 41.10 | 20.63 | 39.74 | 37.09 | 5.24 |
| GPT-4.1 | 55.39 | 57.75 | 50.00 | 57.68 | 41.19 | 6.81 |
| GPT-5 | 70.10 | 43.18 | 55.56 | 55.21 | 36.78 | 7.84 |
| GPT-o4-mini | 68.14 | 59.14 | 51.59 | 57.48 | 42.15 | 8.15 |
| Claude-Sonnet-3.7 | 61.52 | 61.22 | 46.03 | 61.36 | 51.21 | 12.08 |
| Claude-Sonnet-4 | 14.71 | 17.70 | 14.29 | 10.50 | 5.27 | 0.02 |
| Qwen3-32B | 16.67 | 30.92 | 15.08 | 35.42 | 27.26 | 0.00 |
| Qwen3-4B | 3.43 | 4.99 | 0.79 | 2.28 | 7.00 | 0.00 |
许可证信息
data/eval/databases/目录中的资源受其原始Kaggle来源许可证的约束。- 本仓库中的所有其他文件均根据 Apache-2.0 许可证发布。
- 许可证分布详情见
LICENSE/LICENSE_DISTRIBUTION.md。 - 底层许可证元数据见
LICENSE/kaggle_license_train.csv和LICENSE/kaggle_license_test.csv。
引用格式
bibtex @inproceedings{shu2026darebench, title={DARE-Bench: Evaluating Modeling and Instruction Fidelity of LLMs in Data Science}, author={Shu, Fan and Wang, Yite and Wu, Ruofan and Liu, Boyi and Yao, Zhewei and He, Yuxiong and Yan, Feng}, booktitle={International Conference on Learning Representations}, year={2026} }
搜集汇总
数据集介绍

构建方式
在数据科学领域,评估大型语言模型的实际应用能力已成为研究热点。DARE-Bench数据集的构建过程体现了严谨的工程化设计,其核心任务来源于Kaggle平台上的真实数据科学问题,涵盖了分类、回归和时间序列预测三大关键任务类型。通过精心设计的结构化流程,每个任务均包含自然语言问题描述与对应的结构化数据文件,并采用沙盒环境执行代码以生成预测结果。数据集的构建强调可验证性,为每个任务提供了确定性的参考解决方案与元数据,确保了评估过程的客观性与可复现性。
使用方法
使用DARE-Bench进行评估遵循一套标准化的技术流程。研究者首先通过加载`question_list.json`文件获取任务描述与数据路径。模型需在沙盒环境中运行代码,处理提供的数据库文件,并生成包含`row_id`和目标列的预测文件。评估脚本通过比对预测结果与本地生成的基准真值来计算性能得分,针对不同任务类型采用精确匹配、宏F1分数或截断R²等多样化指标。对于指令遵循任务,为确保评估准确性,必须先在本地环境中运行参考解决方案代码以生成适配当前计算环境的基准真值。
背景与挑战
背景概述
随着大语言模型在数据科学领域的应用日益广泛,评估其在实际任务中的建模能力与指令遵循精确度成为研究的关键。DARE-Bench数据集由休斯顿大学与Snowflake AI Research的研究团队于2026年联合创建,旨在系统性地评估LLM代理在分类、回归与时间序列预测等数据科学任务中的表现。该数据集包含6,300项任务,不仅提供了可验证的真实标签以确保评估的客观性,还设计了过程感知的指令遵循任务,以检验模型对复杂工作流的理解与执行能力。DARE-Bench的推出为数据科学自动化研究设立了新的基准,推动了LLM在结构化数据分析与决策支持方面的技术进步。
当前挑战
DARE-Bench所针对的核心挑战在于如何精确评估大语言模型在数据科学流程中的双重能力:一是对自然语言指令的忠实遵循与执行,二是构建有效机器学习模型的建模技能。具体而言,数据集的构建面临多重困难:首先,需确保任务设计的多样性,覆盖分类、回归及时间序列预测等不同范式,同时保持评估标准的统一性与可复现性;其次,真实标签的生成依赖于特定计算环境,细微的硬件或软件差异可能导致结果偏差,这要求构建过程必须严格控制环境变量。此外,整合来自Kaggle等平台的多源数据集时,还需妥善处理各异的数据许可协议,确保法律合规性。
常用场景
经典使用场景
在数据科学领域,DARE-Bench作为评估大语言模型代理能力的基准,其经典使用场景聚焦于模型在分类、回归与时间序列预测任务中的表现。研究者通过该数据集提供的结构化文件与自然语言问题,驱动模型在沙盒环境中执行代码生成预测,从而系统性地衡量模型对数据科学流程的理解与执行精度。这一过程不仅验证了模型处理复杂数据任务的能力,也为模型优化提供了明确的性能指标。
解决学术问题
DARE-Bench致力于解决大语言模型在数据科学应用中指令遵循与建模保真度的评估难题。通过提供可验证的真实标签与过程感知的任务设计,该数据集使研究者能够客观、可复现地量化模型对数据预处理、特征工程及算法选择的遵从性。这为探索模型在结构化数据任务中的泛化能力与可靠性奠定了实证基础,推动了数据科学自动化领域的严谨评估范式。
实际应用
在实际应用中,DARE-Bench为开发智能数据科学助手与自动化机器学习平台提供了关键评估工具。企业可利用该数据集测试模型在真实业务场景下处理分类、回归及时间序列预测任务的效能,例如金融风险预测、销售趋势分析或客户分群建模。通过评估模型对数据指令的解读与执行准确性,能够筛选出适用于生产环境的可靠AI代理,提升数据驱动决策的自动化水平。
数据集最近研究
最新研究方向
在数据科学领域,大型语言模型(LLM)的代理能力评估正成为前沿研究焦点。DARE-Bench作为大规模基准测试,通过6,300个涵盖分类、回归和时间序列预测的任务,系统评估LLM在建模与指令遵循两方面的忠实度。该数据集不仅提供可验证的真实标签以确保客观复现,还设计了过程感知的指令遵循任务,其确定性结果推动了智能体在复杂数据管道中的可靠性研究。当前热点集中于利用监督微调与强化学习优化模型性能,相关实验显示,顶尖模型在指令遵循任务上表现优异,而在经典预测任务中仍有显著提升空间。这一基准的建立,为数据科学自动化提供了严谨的评估框架,促进了LLM在真实世界分析任务中的实用化进程。
以上内容由遇见数据集搜集并总结生成



