agentica-org/DeepCoder-Preview-Dataset
收藏Hugging Face2025-04-09 更新2025-04-08 收录
下载链接:
https://hf-mirror.com/datasets/agentica-org/DeepCoder-Preview-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了编程问题及其测试用例,由四个不同配置的数据集组成:Codeforces、LCBV5、PrimeIntellect和TACO。Codeforces配置包含问题和测试用例;LCBV5配置增加了起始代码和元数据(包括函数名);PrimeIntellect配置包含问题和解决方案;TACO配置包含问题、测试用例和解决方案。训练数据集由7.5K个TACO验证问题、16K个PrimeIntellect的SYNTHETIC-1验证编码问题和600个2023年5月1日至2024年7月31日提交的LiveCodeBench (v5)问题组成。测试数据集包括2024年8月1日至2025年2月1日的LiveCodeBench (v5)问题和Codeforces问题。
The dataset consists of coding problems and their corresponding test cases, divided into four configurations: codeforces, lcbv5, primeintellect, and taco. Each configuration includes features such as problem, tests, starter code, metadata (including function names), and solutions. The training dataset comprises 7.5K TACO Verified problems, 16K verified coding problems from PrimeIntellects SYNTHETIC-1, and 600 LiveCodeBench (v5) problems submitted between May 1, 2023, and July 31, 2024. The test dataset includes LiveCodeBench (v5) problems from August 1, 2024, to February 1, 2025, and Codeforces problems from Qwen/CodeElo.
提供机构:
agentica-org
搜集汇总
数据集介绍

背景与挑战
背景概述
DeepCoder-Preview-Dataset是一个大规模编程问题数据集,包含约2.5万个经过验证的编程问题及其测试用例,主要用于训练和评估代码生成模型。数据集整合了TACO Verified、PrimeIntellect SYNTHETIC-1和LiveCodeBench等多个来源的问题,覆盖多种难度和类型,所有问题都配备至少5个测试用例以确保可验证性。
以上内容由遇见数据集搜集并总结生成



