BAAI/TACO

Name: BAAI/TACO
Creator: BAAI
Published: 2024-06-19 09:16:49
License: 暂无描述

Hugging Face2024-06-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BAAI/TACO

下载链接

链接失效反馈

官方服务：

资源简介：

TACO数据集是一个用于代码生成的基准数据集，包含26443个问题，旨在评估语言模型从自然语言规范生成代码的能力。数据集包含英文问题和Python代码解决方案，并且提供了丰富的元数据，如难度级别、任务主题、算法和所需的编程技能类型。数据集分为训练集和测试集，分别包含25443和1000个样本。数据集的创建过程涉及从多个开放访问站点手动整理问题，并遵循Apache 2.0许可证。

The TACO dataset is a benchmark dataset for code generation, comprising 26,443 problems aimed at evaluating the capability of language models to generate code from natural language specifications. It contains English problem statements and Python code solutions, along with rich metadata including difficulty levels, task topics, algorithms, and required types of programming skills. The dataset is split into training and test sets, which include 25,443 and 1,000 samples respectively. The creation of the dataset involved manually curating problems from multiple publicly accessible websites, and it is released under the Apache 2.0 license.

提供机构：

BAAI

原始信息汇总

TACO 数据集概述

数据集基本信息

名称: TACO
许可证: Apache-2.0
语言: 英文问题描述，Python代码解决方案
多语言性: 单语种
大小: 10K<n<100K
任务类别: 文本生成
任务ID: 语言建模
标签: 代码

数据集结构

配置名称: ALL
特征:
- question: 字符串，问题描述
- solutions: 字符串，Python解决方案
- starter_code: 字符串，起始代码
- input_output: 字符串，测试案例的输入输出
- difficulty: 字符串，问题难度
- raw_tags: 字符串，编程任务的主题
- name: 字符串，问题名称
- source: 字符串，问题来源
- tags: 字符串，解决问题的算法
- skill_types: 字符串，解决问题的编程技能类型
- url: 字符串，问题来源的URL
- Expected Auxiliary Space: 字符串，解决问题所需的额外辅助空间
- time_limit: 字符串，解决问题的时间限制
- date: 字符串，问题日期
- picture_num: 字符串，问题中的图片数量
- memory_limit: 字符串，解决问题的内存限制
- Expected Time Complexity: 字符串，解决问题的时间复杂度

数据集分割

训练集: 25443样本，4239311973字节
测试集: 1000样本，481480755字节

数据集创建

来源: 从多个开放访问网站手动精选问题，包括Aizu, AtCoder, CodeChef, Codeforces, CodeWars, GeeksforGeeks, HackerEarth, HackerRank, Katti, LeetCode
许可证: Apache 2.0，部分内容可能使用MIT License或CC BY 4.0

数据集统计

问题数量: 26443
验证解决方案数量: 1.55M
测试集平均测试案例数: 202.3

使用方法

数据集可通过load_dataset("BAAI/TACO")加载
支持按难度和技能类型筛选数据

引用信息

引用格式请参考原始论文: TACO: Topics in Algorithmic COde generation dataset

搜集汇总

数据集介绍

构建方式

TACO数据集的构建，是通过从开放获取的编程问题分享平台，如Aizu AtCoder、CodeChef、Codeforces等，手动精选编程问题。这些问题包含详细的描述、测试用例以及解决方案，并经过验证以确保准确性。数据集的构建涵盖了从问题描述到解决方案的映射，以及相关技能和算法的标注，旨在为算法生成领域的研究提供高质量的基准数据。

使用方法

使用TACO数据集时，用户可以加载训练集和测试集，并通过数据集中的字段，如问题描述（question）、解决方案（solutions）、输入输出（input_output）等，进行模型训练和评估。用户还可以根据问题难度或技能类型对数据集进行筛选，以适应不同的研究和应用需求。数据集以Apache 2.0许可证发布，确保了使用的灵活性。

背景与挑战

背景概述

BAAI/TACO数据集，全称为'Topics in Algorithmic COde generation'，是由北京师范大学、山东师范大学以及北京大学联合创建的一个算法代码生成数据集。该数据集旨在评估语言模型根据自然语言规范生成代码的能力。自2021年2月23日创建以来，BAAI/TACO已收集了26443个编程问题，涵盖了从简单到非常困难的各个难度级别，并提供了超过1.55M的验证解决方案。这些问题主要来源于Codeforces等开放访问的编程社区，是研究者和开发者共同贡献的智慧结晶。

当前挑战

在构建BAAI/TACO数据集的过程中，研究人员面临了多项挑战。首先，如何从多个来源中筛选和整理出高质量的问题和解决方案是一个难题。其次，确保问题描述的准确性和解决方案的正确性同样具有挑战性。此外，针对不同难度级别和编程技能类型的问题进行分类和标注，也需要耗费大量的人力和时间。在使用该数据集时，研究人员还需解决如何有效地利用这些数据来训练和评估代码生成模型的问题，以及如何处理模型在生成复杂算法代码时可能出现的错误和偏差。

常用场景

经典使用场景

BAAI/TACO数据集作为算法代码生成的基准，其经典使用场景在于评估语言模型根据自然语言规范生成代码的能力。研究人员和开发者可以利用该数据集训练和测试他们的模型，以提高模型在代码生成任务上的表现。

解决学术问题

该数据集解决了学术研究中如何有效评估代码生成模型的问题，提供了大量的编程问题及其解决方案，有助于研究者深入理解代码生成的难点和挑战，从而推动相关算法和模型的发展。

实际应用

在实际应用中，BAAI/TACO数据集可以被用于改进编程辅助工具，如智能编程助手，它能够根据用户描述的问题自动生成代码片段，提高编程效率和减少错误。

数据集最近研究