marin-community/hero-run-4-science-sdg-prompts-boxed-n8

Name: marin-community/hero-run-4-science-sdg-prompts-boxed-n8
Creator: marin-community
Published: 2026-05-01 00:18:15
License: 暂无描述

Hugging Face2026-05-01 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/marin-community/hero-run-4-science-sdg-prompts-boxed-n8

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Hero Run 4 Science SDG Prompts (8x)，是一个用于Marin合成数据生成任务的提示源数据集。每个提示在源数据中重复出现，生成脚本不需要循环响应索引。数据集来源于mlfoundations-dev/hero_run_4_science，包含26,041个独特提示，每个提示重复8次，总行数为208,328。数据集包含多个列，如prompt_index、response_index、_unique_row_id、instruction_seed和generation_prompt。数据集的用途是使用generation_prompt作为模型输入列，并将模型补全写入generated_text。

This dataset is a prompt-only source dataset for Marin synthetic data generation jobs. Each row is intended to receive exactly one model response in the `generated_text` column. Because each unique prompt is repeated in the source data, generation scripts do not need a loop over response indices. The dataset is sourced from mlfoundations-dev/hero_run_4_science, containing 26,041 unique prompts, each repeated 8 times, totaling 208,328 rows. The dataset includes columns such as prompt_index, response_index, _unique_row_id, instruction_seed, and generation_prompt. The intended use is to use generation_prompt as the model input column and write model completions to generated_text.

提供机构：

marin-community

搜集汇总

数据集介绍

构建方式

该数据集源自于mlfoundations-dev/hero_run_4_science源数据集，通过提取其中instruction_seed列中的独特提示构建而成。数据集的构建流程严谨：首先按顺序读取源数据集的13个parquet文件，从中提取出26,041条唯一的指令种子，随后将每条独特提示重复8次，形成总计208,328行的数据结构。每行数据包含prompt_index、response_index、_unique_row_id、instruction_seed及generation_prompt等字段，其中generation_prompt由原始提示附加领域特定的盒式答案后缀拼接而来。这种设计使得数据生成脚本无需在响应索引上进行循环操作，每条提示在同一批次内连续出现8次，响应索引从0至7依次排列，显著提升了合成数据生成的效率与可管理性。

特点

本数据集最显著的特征在于其独特的重复结构设计：每个独特的提示均被精确重复8次，且相邻行按序排列，response_index连续递增。这一特性使得数据生成管线能够以批次处理的方式高效获取多条模型响应，无需额外的循环逻辑。此外，数据集中的_unique_row_id通过prompt_index与response_index的数学组合计算得出，确保了每行数据标识的确定性与唯一性，便于后续的追踪与去重。数据集还保留了原始的instruction_seed字段，便于用户进行分组统计与下游分析，而generation_prompt字段则直接作为模型输入使用，降低了使用门槛。这些设计共同体现了该数据集在合成数据生成任务中的实用性与简洁性。

使用方法

该数据集主要用作Marin合成数据生成任务的提示源，使用时需将generation_prompt字段作为模型输入列，引导模型生成对应的回答，并将生成结果写入generated_text列。由于每条提示被重复8次，用户无需在数据加载阶段编写复杂的循环逻辑来处理多次响应。在完成推理后，可借助instruction_seed字段对多个响应进行分组聚合，分析同一提示下不同模型输出的多样性与一致性。此外，数据集的源数据许可与归属信息可参考mlfoundations-dev/hero_run_4_science源数据集页面。这种设计使得该数据集特别适用于需要批量评估模型在科学领域指令理解与回答能力的场景。

背景与挑战

背景概述

在人工智能与科学交叉领域，合成数据生成技术正日益成为推动大型语言模型能力提升的关键手段。Hero Run 4 Science SDG Prompts (8x) 数据集由mlfoundations-dev团队于近期创建，旨在为科学领域的可持续发现与生成（SDG）任务提供高质量的指令提示来源。该数据集以mlfoundations-dev/hero_run_4_science为源，通过提取其instruction_seed列并复用每条提示8次，形成了包含208,328行、26,041个独立提示的规模，专为Marin合成数据生成作业设计。其核心研究问题在于如何通过结构化的提示工程，引导模型产生符合科学领域要求的盒式回答（boxed answer），从而提升模型在科学问题上的推理与输出能力。该数据集在合成数据生成领域具有重要影响力，为后续科学任务的大规模模型微调与评估奠定了数据基础。

当前挑战

该数据集所解决的核心领域挑战在于，科学领域的大语言模型往往缺乏对精确、结构化输出（如盒式答案）的生成能力，这限制了其在科学推理、实验结果总结等场景中的应用。构建过程中面临的主要挑战包括：首先，从源数据集hero_run_4_science的多个parquet文件中提取并整合指令信息时，需确保提示顺序与唯一性的精确记录，避免数据冗余或丢失；其次，为每条提示生成8次重复以简化生成脚本的循环设计，增加了数据一致性验证的难度；此外，设计领域特定的盒式回答后缀，需在保持提示原意的同时引导模型输出符合科学规范的答案格式，这对提示工程的精密性提出了高要求。

常用场景

经典使用场景

该数据集的核心设计服务于大规模合成数据生成任务，尤其聚焦于科学领域中的可持续发展目标（SDG）问题。其经典使用场景是将精心构造的框定答案型提示（boxed-answer prompts）输入至语言模型，通过重复采样的方式获得多样化的模型响应。每个独特提示被重复八次，旨在捕捉同一问题下模型输出的变异性和稳定性，从而为后续的数据筛选、质量评估或指令微调提供丰富的原始材料。这种结构化重复机制在生成式模型行为分析中尤为常见，确保了数据集的统计可靠性。

解决学术问题

在学术研究层面，该数据集旨在解决合成数据生成中的两大核心挑战：提示设计的一致性问题和模型响应的多样性获取问题。通过提供标准化、领域特定的提示后缀以及预设的响应索引，研究者得以系统性地评估不同模型对科学SDG问题的回答能力，并深入分析模型输出的模式、偏见与不确定性。这为理解大语言模型在专业科学推理任务中的表现瓶颈提供了可复现的实验基础，推动了合成数据在科学教育、可持续发展评估等交叉领域的方法论创新。

衍生相关工作

该数据集衍生出的相关工作主要集中于合成数据生成策略优化、提示工程方法改进以及模型评估基准的构建。基于该数据集的重复提示结构，研究者可进一步探索如何设计更有效的对比采样策略，以提升语言模型在科学推理场景下的鲁棒性。同时，框定答案机制也为可解释性研究提供了窗口，通过分析模型在重复提示下的输出变化，可以揭示推理路径中的潜在偏差或逻辑断层，从而催生出针对性更强的模型校准与微调技术。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集