five

AnupamB-Coder-Dataset

收藏
Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/anupambayen/AnupamB-Coder-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
AnupamB-Coder-Dataset 是一个大规模合成的 Python 和 SQL 示例数据集,涵盖从基础到专家级别的难度,专为训练 AnupamB-Coder-110M 代码语言模型而设计。与大多数从 GitHub 或 StackOverflow 抓取的数据集不同,该数据集的每个示例均由纯 Python 模板引擎生成,无需 GPT 或 API 调用。数据集包含 6,000,000 个示例(4,000,000 个 Python 和 2,000,000 个 SQL),总大小约 3.9 GB。每个示例都明确标注了难度级别(基础、中级、高级、专家),并覆盖了广泛的编程主题,如算术运算、字符串操作、搜索算法、动态规划、图算法、设计模式、SQL 查询等。SQL 示例基于 8 种现实模式,包括用户、订单、产品等表。数据集以 JSON 格式存储,每个示例包含一个 'text' 字段,其中包含指令、难度级别和解决方案。该数据集适用于代码生成、文本到 SQL 转换等任务,并可用于微调代码语言模型。
创建时间:
2026-03-20
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作