marin-community/hero-run-4-code-sdg-prompts-python-fenced-n16

Name: marin-community/hero-run-4-code-sdg-prompts-python-fenced-n16
Creator: marin-community
Published: 2026-05-01 00:17:32
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/marin-community/hero-run-4-code-sdg-prompts-python-fenced-n16

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个专门为Marin合成数据生成任务设计的提示源数据集，名为Hero Run 4 Code SDG Prompts (16x)。它包含Python代码提示，每个提示重复16次，总共有146,688行数据。数据集来源于mlfoundations-dev/hero_run_4_code，包含9,168个独特的提示。每个提示的生成顺序与源文件中首次出现的顺序一致，并且每个提示的响应索引从0到15连续排列。数据集包含多个列，如prompt_index、response_index、_unique_row_id、instruction_seed和generation_prompt。提示后缀要求用户将完整解决方案放在一个Python代码块中，并且不要在代码块后写任何文字。预期用途是使用generation_prompt作为模型输入列，并将模型生成的文本写入generated_text列。

This dataset is a prompt-only source dataset for Marin synthetic data generation jobs, named Hero Run 4 Code SDG Prompts (16x). It contains Python fenced-code prompts, with each prompt repeated 16 times, totaling 146,688 rows. The dataset is sourced from mlfoundations-dev/hero_run_4_code and includes 9,168 unique prompts. The order of prompts follows the first-seen order of unique instruction_seed values in the source parquet files, with response indices running contiguously from 0 to 15 for each prompt. The dataset includes columns such as prompt_index, response_index, _unique_row_id, instruction_seed, and generation_prompt. The prompt suffix instructs users to place the complete solution in a single Python fenced code block and to avoid writing any prose after the code block. The intended use is to employ generation_prompt as the model input column and write model completions to generated_text.

提供机构：

marin-community

搜集汇总

数据集介绍

构建方式

该数据集源自 `mlfoundations-dev/hero_run_4_code` 数据集，通过提取其中 `instruction_seed` 列的提示文本构建而成。具体流程为：从前四个 Parquet 格式的训练文件中，按首次出现顺序采集出 9,168 条独特的提示，每条提示被重复 16 次，最终形成包含 146,688 行的数据集。每一行对应于一个唯一的提示与响应槽位组合，并通过 `prompt_index` 和 `response_index` 进行索引，`_unique_row_id` 提供确定性的行标识。此外，每条提示末尾附加了领域特定的 Python 围栏代码后缀，构成最终的 `generation_prompt`，以引导模型输出特定格式的代码。

特点

该数据集的核心特征在于其专为代码合成数据生成任务设计的结构化重复机制。每条独特提示精确重复 16 次，便于生成脚本在无需循环处理响应索引的情况下，直接为每个提示获取多个模型响应。数据集中包含明确的 `prompt_index`、`response_index` 和 `_unique_row_id` 字段，支持灵活的数据分组与下游分析。提示后缀明确要求模型将完整解决方案置于单个 Python 围栏代码块内，且禁止使用 `\boxed{}` 或添加代码块之外的文字，从而确保了生成输出的格式统一性和可解析性。

使用方法

使用该数据集时，应将 `generation_prompt` 列作为模型输入，利用模型生成对应的代码补全，并将结果写入 `generated_text` 列。`instruction_seed` 列保留了原始提示文本，可用于分组或溯源分析。由于每条提示已重复 16 次，数据生成脚本无需额外构建循环逻辑，可直接逐行调用模型进行推理。开发者可参考源数据集 `mlfoundations-dev/hero_run_4_code` 获取原始数据的许可与归属信息，以便合规地使用和分发生成后的数据集。

背景与挑战

背景概述

随着大语言模型在代码生成领域的广泛应用，高质量且多样化的指令数据成为提升模型性能的关键。在此背景下，隶属于mlfoundations-dev团队的Hero Run系列数据集应运而生，其中hero-run-4-code-sdg-prompts-python-fenced-n16数据集于近期发布，旨在为代码合成数据生成（SDG）任务提供结构化的提示源。该数据集由Marin合成数据生成框架驱动，核心研究问题聚焦于如何通过重复同一指令种子（9,168个唯一提示，每提示重复16次，总计146,688行）来获取多轮模型响应，从而丰富代码生成场景下的训练样本多样性。作为专门的Python围栏代码提示源，其设计理念在于简化生成脚本的循环逻辑，通过预设的指令后缀将用户问题限定于生成独立、完整的Python代码块，有效避免了模型中不必要的文本输出。该数据集的出现为代码智能领域的合成数据构建提供了标准化范例，推动了从原始指令到结构化代码生成样本的高效转化。

当前挑战

该数据集主要应对两大挑战：其一，在领域问题层面，现有代码生成模型常因指令模糊或输出格式不统一导致结果不可用，该数据集通过引入固定的Python围栏代码后缀（例如禁止使用\boxed{}、要求将完整解答置于单个python代码块内），强制模型输出结构化代码，解决了代码生成任务中格式规范化与内容完整性的核心挑战；其二，在构建过程中，数据集面临提示多样性不足与响应一致性维持的困境，通过将9,168个唯一提示各重复16次，并采用确定性行ID（prompt_index * 16 + response_index）确保数据可追溯性，同时从源数据集mlfoundations-dev/hero_run_4_code的四个parquet文件中按首次出现顺序提取提示，在保证提示覆盖范围的同时避免了随机采样带来的分布偏移，为后续多轮生成实验提供了可复现的基准数据源。

常用场景

经典使用场景

该数据集专为代码合成数据生成任务设计，聚焦于基于Python指令的少样本学习场景。每一行数据包含一个独特的代码生成提示，提示本身被精确封装在Python围栏代码块中，模型需输出完整的解决方案而非离散片段。经典使用方式是将生成提示作为模型输入，通过16次重复采样获取多样化的响应，用于微调代码大语言模型在结构化代码生成上的表现。这种设计特别适合评估和提升模型在严格格式约束下的推理能力，例如要求模型避开特定的输出格式如\boxed{}，转而生成自包含的围栏代码块。

解决学术问题

该数据集主要解决了代码指令数据集构建中的两个核心学术问题：一是高质量代码生成提示的稀疏性导致模型泛化能力受限，二是同类提示的单一响应无法充分捕捉代码解决方案的多样性。通过将来自源数据集的大量独特指令重复16次，研究团队可以系统性地分析同一指令下模型输出的多模态分布，从而探索代码生成任务中的创造性边界和鲁棒性特征。这一设计为少样本代码生成、指令遵循以及格式约束下的推理研究提供了标准化基准，推动了代码语言模型在复杂编程任务中可靠性的评估方法学进步。

衍生相关工作

基于该数据集的特点，衍生出诸多经典研究工作。例如，研究者常将其作为数据源扩充更大的代码指令微调集合，如CodeAlpaca或Evol-CodeAlpaca的指令多样性增强。利用其围栏代码块的严格约束，衍生工作探讨了格式控制对模型输出安全性的影响，发现了边界条件的符号平衡机制。此外，重复采样设计启发了多家研究机构在数学推理与代码任务的交叉领域开展对比实验，如使用该数据集评估PaLM、GPT-4等模型在避免特定输出模式时的指令遵循能力。这些工作进一步深化了人们对代码大模型在结构化输出控制与泛化能力间权衡的理解。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集