PRIME-Code-With-Difficulty-split0of10

Hugging Face2026-03-06 更新2026-03-07 收录

下载链接：

https://huggingface.co/datasets/Kazuki1450/PRIME-Code-With-Difficulty-split0of10

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1912个训练样本，总大小约274MB。数据结构包含以下核心字段：1) data_source（字符串型数据来源标识）；2) prompt（对话提示列表，含content文本内容和role角色标识）；3) ability（字符串型能力标签）；4) reward_model（含ground_truth标准答案和style风格标签的评估结构）；5) extra_info（含index索引和split分割标识的元信息）。特别包含Qwen3-14B和Qwen3-4B两种模型的三次最佳通过率评估指标（浮点型）。数据以train分割形式存储，适用于对话系统训练、强化学习奖励建模及大语言模型能力评估等场景。

创建时间：

2026-03-05

原始信息汇总

数据集概述

数据集基本信息

数据集名称: PRIME-Code-With-Difficulty-split0of10
托管平台: Hugging Face
数据集地址: https://huggingface.co/datasets/Kazuki1450/PRIME-Code-With-Difficulty-split0of10

数据内容与结构

特征（Features）

数据集包含以下字段：

data_source (string): 数据来源。
prompt (list): 提示信息列表，包含子字段：
- content (string): 提示内容。
- role (string): 角色信息。
ability (string): 能力描述。
reward_model (struct): 奖励模型信息，包含子字段：
- ground_truth (string): 真实答案或标准。
- style (string): 风格描述。
extra_info (struct): 额外信息，包含子字段：
- index (int64): 索引编号。
- split (string): 数据划分标识。
Qwen3-14B_best_pass_rate_per_3 (float64): Qwen3-14B模型的最佳通过率（每3次）。
Qwen3-4B_best_pass_rate_per_3 (float64): Qwen3-4B模型的最佳通过率（每3次）。

数据划分（Splits）

训练集（train）:
- 样本数量: 1912
- 数据大小: 274,758,412 字节
- 下载大小: 132,420,571 字节
- 数据集总大小: 274,758,412 字节

配置与访问

默认配置（default）: 数据文件路径为 data/train-*，对应训练集。

搜集汇总

数据集介绍

构建方式

在代码生成与评估领域，PRIME-Code-With-Difficulty-split0of10数据集通过精心设计的流程构建而成。其数据来源于多样化的编程任务集合，每个样本均包含结构化的提示信息，涵盖角色与内容描述，并标注了对应的能力类别。数据构建过程中，不仅整合了奖励模型的评估结果，包括真实答案与风格特征，还引入了额外的元信息如索引与分割标识，确保了数据层次分明。该数据集特别融入了基于Qwen3系列模型的多轮通过率指标，为难度分级提供了量化依据，整体构建兼顾了任务多样性与评估深度。

特点

该数据集展现出多维度融合的显著特点。在特征设计上，它集成了提示序列、能力分类、奖励模型反馈及扩展信息等多个结构化字段，形成了丰富的元数据体系。其核心亮点在于引入了Qwen3-14B与Qwen3-4B模型的三轮最佳通过率作为难度量化指标，为研究代码生成任务的复杂性提供了可度量的参考标准。数据分割明确，训练集包含1912个样本，规模适中，便于实验部署。整体特征体现了对代码生成质量与难度评估的精细化关注，适合用于模型训练与基准测试。

使用方法

使用该数据集时，研究者可依托其结构化格式开展多项任务。数据集以标准配置提供，训练数据可通过指定路径加载，便于直接应用于代码生成模型的微调或评估。用户可依据提示字段模拟真实编程场景，结合能力标签进行针对性训练；奖励模型部分支持生成结果的质量分析，而通过率指标则有助于构建难度感知的学习策略。额外信息中的分割标识确保了数据使用的灵活性，适合用于交叉验证或渐进式学习实验，为代码智能研究提供可靠的数据基础。

背景与挑战

背景概述

PRIME-Code-With-Difficulty-split0of10数据集聚焦于代码生成与评估领域，旨在通过难度分级机制提升大语言模型在编程任务中的性能。该数据集由研究团队精心构建，核心研究问题在于如何系统性地量化代码生成任务的复杂性，并基于此设计有效的训练与评估框架。其影响力体现在推动代码智能向更精细化、自适应方向发展，为模型在真实编程场景中的鲁棒性提供数据支撑。

当前挑战

该数据集致力于解决代码生成领域中的难度自适应挑战，即如何准确划分编程问题的复杂度层次，并确保模型能够针对不同难度任务进行泛化。构建过程中的主要挑战包括：设计科学且可扩展的难度标注体系，平衡数据多样性与质量，以及整合多维度评估指标如通过率与风格一致性，以全面反映模型的实际编码能力。

常用场景

经典使用场景

在代码生成与智能编程辅助领域，PRIME-Code-With-Difficulty-split0of10数据集凭借其结构化的编程任务与难度分级特性，常被用于训练和评估大语言模型在代码生成任务上的性能。该数据集通过包含多样化的编程问题提示与对应的标准答案，为模型提供了从简单到复杂的代码生成场景，使得研究者能够系统性地测试模型在不同难度级别下的编码能力与逻辑推理水平。

衍生相关工作

围绕该数据集，学术界已衍生出一系列经典研究工作，主要集中在代码生成模型的性能优化与评估框架构建上。例如，研究者利用其难度分级特性开发了新的基准测试套件，以更精细地衡量模型在复杂编程任务上的能力；同时，基于该数据集训练的模型也被应用于代码风格迁移、程序合成质量提升等方向，进一步拓展了代码智能研究的边界，并催生了多篇高水平学术论文与开源工具。

数据集最近研究