idfu-verified-code

Hugging Face2026-04-17 更新2026-04-18 收录

下载链接：

https://huggingface.co/datasets/namakoo/idfu-verified-code

下载链接

链接失效反馈

官方服务：

资源简介：

IDFU Verified Code 是一个高质量代码指令数据集，专为大型语言模型（LLM）的监督微调（SFT）和偏好学习（DPO）设计。该数据集的每一条记录均在隔离的Docker容器中执行验证，确保代码正确性。数据集具有以下特点：所有代码均经过Docker验证，无错误代码；每日更新，保证数据新鲜度；99.8%以上的唯一性保证；符合许可证要求，不含受版权保护的代码；提供JSONL和Parquet两种格式。数据集提供免费样本，完整数据集包包含5000至10000条记录，并附带质量证书。适用于需要高质量代码数据进行模型微调的研究和开发场景。

创建时间：

2026-04-15

原始信息汇总

IDFU Verified Code 数据集概述

数据集简介

IDFU Verified Code 是一个用于大型语言模型（LLM）监督微调（SFT）和偏好学习（DPO）的高质量代码指令数据集。其核心特点是每条记录均在隔离的Docker容器中执行验证，以确保代码的正确性。

核心特性

Docker验证：每条记录均经过隔离Docker容器执行验证，确保无错误代码。
质量认证：每个完整的数据包均附带质量证书。
每日更新：数据每日更新，每24小时提供新数据。
高唯一性：保证99.8%以上的数据唯一性。
许可证合规：不包含受版权保护的代码。
数据格式：提供JSONL和Parquet格式。

数据内容与获取

免费样本：每日更新的免费样本存放于该仓库的data/文件夹中。
完整数据集：需付费获取的完整数据包，包含质量证书。具体包信息如下：

数据包名称	记录数量	价格
Bulk All-Rank	10,000	$69
B-Grade SFT	5,000	$99
C-Grade DPO	5,000	$49
BC Preference Pair	3,000	$149
SA Premium	500	$249

获取与支持

联系方式：watasi_saikou@hotmail.com
供应商信息：IDFU（个人经营者）。
支付方式：通过Stripe处理的信用卡支付。
交付方式：付款完成后立即通过电子邮件发送分发链接。
退货政策：数字商品，购买后不可退货退款。若确认存在重大质量缺陷，将进行个别处理。
运行环境：Python 3.10+ 及任何可读取JSONL/Parquet文件的文本编辑器。

隐私政策

除交易处理所必需的信息外，不收集个人数据。支付信息由Stripe安全处理，不存储在其系统中。有关数据查询，请通过上述电子邮件地址联系。

搜集汇总

数据集介绍

构建方式

在代码生成与指令微调领域，数据质量直接影响模型性能。IDFU Verified Code数据集通过严格的执行验证机制构建，每条代码记录均在隔离的Docker容器中运行测试，确保其功能正确性。该过程每日自动更新，结合去重算法保证99.8%以上的唯一性，并过滤版权受限内容，最终以JSONL和Parquet格式封装，附有质量认证证书。

特点

该数据集的核心特征体现在其可验证的质量保证体系。每条代码均经过容器化执行验证，从根本上杜绝错误代码的混入。数据每日更新机制维持了内容的时效性与多样性，同时严格遵循许可证合规要求，避免法律风险。格式设计兼顾科研与工程需求，提供结构化与列式存储两种方案，适配不同规模的计算任务。

使用方法

研究者可将本数据集直接应用于大语言模型的监督微调与偏好对齐训练。使用前需配置Python 3.10以上环境及相应数据解析库，通过加载JSONL或Parquet文件获取指令-代码对。对于付费版本，需通过指定渠道获取访问权限，解压后参照质量证书中的统计指标进行数据采样与预处理，继而接入主流训练框架完成模型优化。

背景与挑战

背景概述

在大型语言模型（LLM）的监督微调与偏好对齐领域，高质量代码指令数据集的构建成为提升模型编程能力的关键。IDFU Verified Code数据集由个人开发者IDFU创建，旨在通过Docker容器隔离执行验证每条代码记录的正确性，确保数据纯净性与可靠性。该数据集聚焦于解决代码生成任务中幻觉代码与逻辑错误频发的问题，通过每日更新的动态机制，为LLM的SFT和DPO训练提供了经过执行验证的标准化语料，推动了代码智能领域向更高精度与实用化方向发展。

当前挑战

该数据集致力于应对代码生成模型中普遍存在的幻觉输出与逻辑不一致性挑战，通过执行验证确保生成代码的功能正确性。在构建过程中，面临多重技术难题：需在隔离Docker环境中高效执行海量代码片段并捕获运行时状态，同时维持99.8%以上的数据唯一性以避免训练偏差；还需严格筛选许可证合规代码，规避知识产权风险；每日更新的动态维护机制更对数据流水线的自动化与稳定性提出持续考验。

常用场景

经典使用场景

在大型语言模型（LLM）的微调领域，IDFU Verified Code数据集以其经过Docker容器隔离执行验证的高质量代码指令，为监督微调（SFT）和偏好学习（DPO）提供了可靠的基础。该数据集通过确保每条代码记录的正确性和可执行性，成为研究人员在训练代码生成、代码补全或代码理解模型时的首选资源，有效支撑了模型在复杂编程任务中的性能优化与泛化能力提升。

衍生相关工作

围绕IDFU Verified Code数据集，已衍生出一系列专注于代码生成与优化的经典研究工作。这些工作通常利用其验证过的代码对，探索LLM在特定编程语言或框架下的微调策略，例如改进代码补全的准确性、增强代码重构的智能性，或开发基于DPO的代码风格偏好模型。这些研究不仅丰富了代码智能领域的学术成果，也为开源社区和工业界提供了可复现的实践范例。

数据集最近研究