AnupamB-Coder-Dataset
收藏Hugging Face2026-03-22 更新2026-03-23 收录
下载链接:
https://huggingface.co/datasets/anupambayen/AnupamB-Coder-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
AnupamB-Coder-Dataset 是一个大规模合成的 Python 和 SQL 示例数据集,涵盖从基础到专家级别的难度,专为训练 AnupamB-Coder-110M 代码语言模型而设计。与大多数从 GitHub 或 StackOverflow 抓取的数据集不同,该数据集的每个示例均由纯 Python 模板引擎生成,无需 GPT 或 API 调用。数据集包含 6,000,000 个示例(4,000,000 个 Python 和 2,000,000 个 SQL),总大小约 3.9 GB。每个示例都明确标注了难度级别(基础、中级、高级、专家),并覆盖了广泛的编程主题,如算术运算、字符串操作、搜索算法、动态规划、图算法、设计模式、SQL 查询等。SQL 示例基于 8 种现实模式,包括用户、订单、产品等表。数据集以 JSON 格式存储,每个示例包含一个 'text' 字段,其中包含指令、难度级别和解决方案。该数据集适用于代码生成、文本到 SQL 转换等任务,并可用于微调代码语言模型。
创建时间:
2026-03-20



