TAM Bench

Name: TAM Bench
Creator: 复旦大学
Published: 2025-09-11 18:10:48
License: 暂无描述

arXiv2025-09-11 更新2025-09-13 收录

下载链接：

https://TAM-Bench

下载链接

链接失效反馈

官方服务：

资源简介：

TAM Bench是一个为评估基于LLM的代理在端到端ML任务上的综合能力而设计的多样化、现实化和结构化的基准。该基准具有三个关键创新：(1)一个基于浏览器自动化和LLM的任务获取系统，自动从Kaggle、AIcrowd和Biendata等平台收集和结构化ML挑战，涵盖多种任务类型和数据模态；(2)一个基于排行榜的难度建模机制，使用参与者数量和分数分布来估计任务复杂性，实现可扩展和客观的任务校准；(3)一个多维度评估框架，结合性能、格式合规性、约束遵守和任务泛化。基于150个精心策划的AutoML任务，我们构建了三个不同大小的基准子集，包括Lite、Medium和Full，以适应不同的评估场景。

TAM Bench is a diverse, realistic, and structured benchmark designed to evaluate the comprehensive capabilities of LLM-based agents on end-to-end machine learning (ML) tasks. This benchmark features three core innovations: (1) A browser automation and LLM-powered task acquisition system that automatically collects and structures ML challenges from platforms such as Kaggle, AIcrowd, and Biendata, covering diverse task types and data modalities; (2) A leaderboard-based difficulty modeling mechanism that estimates task complexity using the number of participants and score distributions, enabling scalable and objective task calibration; (3) A multi-dimensional evaluation framework that integrates performance, format compliance, constraint adherence, and task generalization. Based on 150 carefully curated AutoML tasks, we constructed three benchmark subsets of varying sizes, namely Lite, Medium, and Full, to accommodate different evaluation scenarios.

提供机构：

复旦大学

创建时间：

2025-09-11

搜集汇总

数据集介绍

构建方式

TAM Bench采用基于浏览器自动化和大型语言模型的创新方法构建数据集，通过Web Agent系统从Kaggle、AIcrowd和Biendata等平台自动抓取并结构化机器学习挑战任务。该系统利用LangChain的ReAct架构实现任务解析与决策生成，通过分层控制器将操作指令转换为浏览器命令，并借助Playwright实现底层浏览器控制。数据提取后经过严格的过滤流程，包括排除2023年前的任务、移除无公开数据集或无法复现评分的任务，最终构建包含150个高质量任务的完整版本。

特点

TAM Bench以其多样性和结构化设计著称，覆盖表格、文本、图像、音频、图结构及多模态六种数据类型，并包含电子商务、生物信息学等传统基准缺失的应用领域。该数据集采用基于排行榜信号的自动化难度建模机制，通过参与者数量和分数离散度客观估计任务复杂度，并将其分为简单、中等和困难三个等级。此外，数据集提供Lite、Medium和Full三个版本，其中Lite版本包含18个任务，在模态和难度上实现均衡分布，为不同资源约束下的评估提供灵活选择。

使用方法

使用TAM Bench时，研究者需在Docker容器中部署任务描述和数据集，允许智能代理在最多8小时内完成端到端机器学习工作流，包括数据分析和模型调优。评估过程生成submission.csv预测文件和best_solution.py解决方案脚本，并通过多维评估框架进行量化：性能维度采用加权平均排名百分比衡量模型相对表现；约束遵从度通过LLM即法官模式验证代码是否符合任务特殊指令；格式合规性检查提交文件的结构正确性。该框架有效防止奖励黑客行为，确保评估全面反映智能代理在真实场景中的综合能力。

背景与挑战

背景概述

TAM Bench由复旦大学与蚂蚁集团联合研发，于2025年正式发布，旨在构建面向自适应机器学习评估的基准体系。该数据集聚焦于大语言模型驱动的端到端机器学习工作流自动化能力评估，涵盖数据解析、特征工程、模型训练及竞赛求解等全流程任务。其核心研究在于突破传统基准在任务覆盖度、领域多样性及评估严谨性方面的局限，通过自动化采集Kaggle、AIcrowd等平台的真实竞赛任务，构建了包含表格、文本、图像、音频等多模态数据的150项标准化任务，为智能代理系统的能力评估提供了重要基础设施。

当前挑战

TAM Bench需解决端到端机器学习自动化中因任务类型分布不均、领域覆盖狭窄导致的评估偏差问题，其构建过程面临三重挑战：一是跨平台异构数据的自动化采集与结构化映射需克服网页动态渲染与数据格式不统一的技术障碍；二是基于排行榜数据的难度建模需平衡参与者数量与分数离散度对复杂度评估的干扰；三是多维度评估体系需协同性能排名、格式合规性与约束满足度的量化验证，避免代理系统的奖励破解行为。

常用场景

经典使用场景

在自动化机器学习领域，TAM Bench作为评估基于大型语言模型的智能代理系统端到端性能的核心基准，广泛应用于多模态数据处理与复杂任务求解场景。该数据集通过自动化采集Kaggle等平台的机器学习竞赛任务，覆盖表格、文本、图像、音频及图结构数据，为研究者提供了标准化测试环境以验证代理在特征工程、模型训练与结果提交全流程的综合能力。

衍生相关工作

TAM Bench催生了多项重要研究，包括基于其多模态评估框架的智能代理系统优化（如AIDE和OpenHands的强化学习集成方案），以及跨领域迁移学习研究。其难度建模机制启发了后续工作如AutoMind的任务适应性调度算法，而约束遵循评估范式则被ML-Master等系统采纳为核心验证标准，推动了领域向可靠性与可解释性方向发展。

数据集最近研究