five

DONG19/TACO

收藏
Hugging Face2026-05-02 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DONG19/TACO
下载链接
链接失效反馈
官方服务:
资源简介:
TACO数据集是一个用于代码生成的基准数据集,包含26443个编程问题。它可用于评估语言模型根据自然语言规范生成代码的能力。数据集包含英文问题描述、Python解决方案、测试用例及其输入输出、难度级别、问题主题、所需算法和编程技能类型等元数据。数据集结构包括训练集(25443个样本)和测试集(1000个样本)。数据来源于多个开放访问的编程问题分享网站,如Codeforces、CodeChef、LeetCode等,并遵循Apache 2.0许可证。

The TACO dataset is a benchmark for code generation with 26,443 programming problems. It can be used to evaluate the ability of language models to generate code from natural language specifications. The dataset includes problem descriptions in English, Python solutions, test cases with inputs and outputs, and metadata such as difficulty level, problem topics, required algorithms, and programming skill types. The dataset is structured into a training set (25,443 samples) and a test set (1,000 samples). It is sourced from various open-access programming problem-sharing sites like Codeforces, CodeChef, LeetCode, etc., and is available under an Apache 2.0 License.
提供机构:
DONG19
搜集汇总
数据集介绍
main_image_url
构建方式
TACO数据集的构建源于对算法代码生成领域数据匮乏与质量参差不齐问题的深刻洞察。研究团队从Aizu、AtCoder、CodeChef、Codeforces、CodeWars、GeeksforGeeks、HackerEarth、HackerRank、Katti以及LeetCode等十余个开放编程社区中,精心筛选与手工整理出26,443道编程题目。这些题目不仅涵盖广泛的算法主题,还配套有1.55M个经过验证的Python解决方案与丰富的测试用例,确保数据集在规模与质量上达到新的高度。每道题目均被赋予难度等级、算法标签、技能类型等结构化元信息,从而为模型训练与评估提供了严谨的基准。
使用方法
使用TACO数据集极为便捷,推荐通过Hugging Face Datasets库加载。用户可直接调用`load_dataset("BAAI/TACO", split="train")`获取训练集,或通过`difficulties`与`skills`参数筛选特定难度与算法类型的题目。加载后的样本可通过`json.loads`将`solutions`与`input_output`字段解析为Python列表与字典以进行后续处理。数据集已划分为包含25,443条样本的训练集与1,000条样本的测试集,测试集平均涵盖202.3个测试用例,为模型性能的精准评估提供了坚实基础。用户亦可参考官方仓库提供的Leaderboard与论文进行对比实验,充分挖掘该数据集在算法代码生成领域的潜力。
背景与挑战
背景概述
TACO(Topics in Algorithmic COde generation)数据集由北京人工智能研究院(BAAI)、山东师范大学和北京大学的研究团队于2023年联合创建,旨在系统性地评估与推动大语言模型在算法代码生成领域的能力。该数据集包含26,443个编程问题,附有超过155万条经过验证的Python解决方案,问题来源涵盖Codeforces、LeetCode、AtCoder等九个主流在线编程平台。围绕从自然语言描述到可执行代码的自动生成这一核心研究问题,TACO不仅提供了丰富的问题描述与多层级难度标注,还精细地标注了算法主题、编程技能类型与时空复杂度等元信息,为模型在算法推理与代码生成方面的评测树立了高质量基准,对自然语言处理与程序合成交叉领域产生了重要影响。
当前挑战
TACO所面对的领域挑战在于,现有代码生成模型往往在简单编程任务上表现良好,却难以应对需要深度算法理解与多步推理的复杂问题,尤其是涉及数据结构、动态规划和贪心算法等高级主题时。构建过程则面临多重难题:如何从海量异构在线题目中筛选出高质量、语言表述清晰且解决方案验证完备的问题;如何统一来自不同平台的数据格式并正确解析测试用例与函数签名;如何确保标注的算法标签和技能类型既准确又具有一致性,避免歧义与冗余;此外,还需对包含图片的多模态问题进行特殊处理,以维持数据集的整体可用性与评测公平性。
常用场景
经典使用场景
TACO数据集在代码生成领域占据着举足轻重的地位,其经典使用场景在于评估和提升大语言模型根据自然语言描述生成算法代码的能力。该数据集汇聚了超过2.6万道精心挑选的编程题目,覆盖从简单到极为困难的多个难度层级,并细分为贪心算法、动态规划、数据结构等核心编程技能类型。研究者通常利用其训练和测试划分,将题目描述作为输入,要求模型输出正确且高效的Python代码,并通过内置的丰富测试用例进行严格验证。这种设计使得TACO成为衡量模型在复杂算法推理与代码实现方面综合实力的标杆性基准。
解决学术问题
TACO数据集的构建旨在攻克代码生成领域中长期存在的若干关键学术难题。首先,它缓解了以往基准数据集中于简单任务而缺乏复杂算法挑战的不足,提供了大量包含明确时间和空间复杂度要求的题目,使得模型对算法效率的理解成为可量化的评估指标。其次,通过为每个问题提供多条高质量的人工作答方案和详细标签,TACO有力地推动了从‘生成正确代码’向‘生成最优或符合特定约束代码’的范式转变。这一资源对探究模型如何学习算法策略、进行多步推理以及泛化至未见过的编程问题具有深远意义,极大促进了自然语言与程序语言间语义鸿沟的弥合。
实际应用
在工业与工程实践中,TACO数据集的应用价值体现在对自动化编程工具的赋能与优化上。基于此数据集训练的模型,能够辅助开发者在项目初期快速生成核心算法原型,显著提升软件开发效率。例如,在面临复杂的排序、搜索或图论问题时,系统可根据自然语言需求描述自动给出兼具正确性与时间空间效率的参考实现。此外,TACO还被用来增强教育辅助系统的智能性,为学生提供针对性的编程练习反馈和不同复杂度的解题思路。其涵盖多类在线判题平台题目的特性,也使得这些模型能够更好地适应真实编程竞赛和面试场景中的多样化需求。
数据集最近研究
最新研究方向
TACO数据集聚焦于算法代码生成的基准评估,近期研究前沿集中于利用其丰富的题目难度分层(从EASY到VERY_HARD)与细粒度技能类型标注(如动态规划、贪心算法、数据结构等),为大型语言模型在代码生成任务上的能力边界刻画与薄弱环节诊断提供了可靠测试床。伴随该数据集发布的顶会论文与公开排行榜,推动了针对模型在复杂算法推理、时空复杂度约束下的代码生成准确性研究,成为检验前沿模型(如GPT-4、CodeLlama)实战编码能力的关键标杆,对促进可解释、高效、符合算法规范的代码智能生成具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作