five

marin-community/openthoughts4-science-26041-prompts-qwen3-32b-n8-flattened-logprobs-k16

收藏
Hugging Face2026-05-06 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/marin-community/openthoughts4-science-26041-prompts-qwen3-32b-n8-flattened-logprobs-k16
下载链接
链接失效反馈
官方服务:
资源简介:
OpenThoughts-4 Science SDG: Qwen3-32B数据集包含来自Qwen/Qwen3-32B模型在Marin OpenThoughts-4科学SDG提示集上的合成生成内容。每个提示被采样8次,数据集存储了每个生成令牌的选择令牌对数概率以及词汇表中前16个对数概率,支持蒸馏、KL风格微调、重新排名和不确定性分析等任务。数据集以扁平化的parquet表格形式组织,包含标识符列和生成列,并分割成多个parquet文件。数据集采用Apache 2.0许可证发布,使用时需引用Marin项目和Qwen3技术报告。

The OpenThoughts-4 Science SDG: Qwen3-32B dataset contains synthetic generations from the Qwen/Qwen3-32B model on the Marin OpenThoughts-4 science SDG prompt set. Each prompt is sampled 8 times, and the dataset stores the chosen-token log probability plus the top-16 log probabilities over the vocabulary, enabling tasks such as distillation, KL-style fine-tuning, reranking, and uncertainty analysis. The dataset is structured as a flattened parquet table with specific columns for identifiers and generation details, and it is sharded into multiple parquet files. The dataset is released under the Apache 2.0 license and requires citation of the Marin project and Qwen3 technical report if used.
提供机构:
marin-community
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于Marin OpenThoughts-4科学领域提示集,利用Qwen3-32B大语言模型对26,041条独特科学问题进行了系统性生成。每个提示采样8次,共产生208,328条样本。生成过程中采用温度参数0.8,最大生成长度32,768 tokens,推理引擎为vLLM(TPU v6e-8,tensor_parallel_size=8)。数据集以parquet格式存储,按提示索引与样本索引组织,每条记录包含原始科学问题、经聊天模板处理后的完整提示、模型生成的文本及其对应的token序列与对数概率信息。特别地,每个生成token位置均存储了词汇表中前16个候选token的ID及其对数概率,为后续的蒸馏学习、KL散度微调、重排序及不确定性分析提供了丰富信息。
特点
本数据集最显著的特点在于其丰富的信息粒度与结构化设计。通过8次独立采样,每个科学问题获得了多样化的模型推理轨迹。更为关键的是,数据集不仅记录了每个生成token被选中的对数概率,还提供了每一步前16个候选token的完整对数概率分布,这种细粒度的概率信息对于知识蒸馏、对比学习等高级技术应用至关重要。数据采用扁平化的行式存储,每行对应一个特定的(提示,采样序号)组合,并通过_unique_row_id列提供全局唯一标识符,便于跨数据集匹配与去重。数据被分片为约2,250个parquet文件,支持高效分布式读取。
使用方法
使用数据集时,可通过Hugging Face datasets库加载default配置下的train分割。对于存储为扁平化列表的前16候选token信息,推荐使用NumPy重塑为标准(T×k)矩阵格式:首先获取生成token序列长度T,然后调用reshape方法得到每个token位置的前16个候选ID及其对数概率。需要注意的是,被选中的token不一定出现在前16候选之中,因此应使用generated_token_logprobs列获取准确的选择概率。该数据集特别适用于需要细粒度概率信息的场景,如基于KL散度的模型蒸馏、奖励模型训练、重排序策略优化以及生成不确定性量化研究。
背景与挑战
背景概述
OpenThoughts-4 Science SDG数据集由Marin社区于2025年创建,基于Qwen3-32B模型,针对科学领域(science)的26,041个提示(prompts)进行了合成数据生成(SDG)。该数据集的核心研究问题在于为科学推理任务提供高质量、多样化的指令微调数据,尤其聚焦于利用采样(n=8)和精细化的对数概率(logprobs)信息来支持知识蒸馏、KL散度微调、重排序及不确定性分析。作为OpenThoughts-4系列的重要组成部分,该数据集与Qwen3-30B-A3B、Qwen3-4B等模型生成的数据互为补充,共同推动了科学领域大语言模型在推理能力上的探索。其发布在HuggingFace平台,采用Apache 2.0许可,旨在促进开放科学和可复现研究,对合成数据生成范式和模型对齐研究具有显著影响力。
当前挑战
数据集所解决的领域问题挑战在于科学推理任务中高质量训练数据的稀缺性,以及大语言模型在化学、物理等需严谨逻辑的学科中易产生事实性错误的问题。通过提供包含完整生成文本、词元ID及顶层16个候选词元对数概率的细粒度数据,该数据集为模型蒸馏与不确定性量化提供了关键支撑,从而提升了模型的稳健性与可信度。构建过程中面临的主要挑战包括:在TPU v6e-8上使用vLLM推理引擎时,需要平衡32,768最大生成长度与2048最大模型长度之间的约束;对每个提示进行8次独立采样以捕捉输出多样性;以及设计扁平化的Parquet存储格式来高效管理208,328行数据中累计超过6.8亿个词元(含拓扑候选信息)的庞大规模,确保数据可便捷加载和重塑。
常用场景
经典使用场景
在科学推理与大型语言模型的研究领域,该数据集作为一份高质量的科学指令微调与知识蒸馏语料,承载着来自OpenThoughts-4项目中的26,041条自然科学问题。每个问题均由Qwen3-32B模型以温度0.8采样8次,生成最长可达32,768个令牌的完整推理链。尤为独特的是,数据集不仅记录了每个生成令牌的对数概率,还保存了词汇表上排名前16的候选令牌及其概率分布,为后续的模型优化提供了丰富的概率空间信息。这一设计使其成为训练科学领域专用对话模型、提升模型在复杂科学问题上的逐步推理能力的理想资源。研究者可以通过该数据集开展监督式微调,引导模型学习生成条理清晰、逻辑严密的科学解答,从而在生物学、物理学、化学等细分学科中建立更强大的语言理解与生成基线。
衍生相关工作
该数据集的发布催生了一系列相邻研究方向与衍生工作。其中最直接的是基于其概率标注结构开发的蒸馏框架,例如将教师模型Qwen3-32B的top-16对数概率矩阵应用于轻量级学生模型(如Qwen3-4B或Gemma系列)的训练,实现科学推理能力的迁移。此外,研究者已利用该数据集中重采样产生的多路径信息,构建了不确定性驱动的选择机制,用以提升模型在科学问答中的一致性表现。该数据集还促成了跨模型对比实验的开展,通过与其姊妹数据集(如使用Qwen3-30B-A3B-Thinking生成的科学切片)联合分析,学术界能够系统评估不同架构与参数规模下的模型在科学推理任务中的表征差异。未来可预见的是,该数据集将支持基于奖励模型与强化学习的对齐优化研究,特别是在需要多步逻辑验证与事实准确性的科学场景中,为构建更为可靠的人工智能科学家群体奠定基础。
数据集最近研究
最新研究方向
聚焦于科学推理场景下的大语言模型对齐与不确定性建模,该数据集通过记录Qwen3-32B在OpenThoughts-4科学提示集上的完整生成轨迹,包括每个token的选定概率及词汇表top-16对数概率,为知识蒸馏、KL散度微调、重排序及不确定性分析提供了细粒度监督信号。其与MoE变体Qwen3-30B-A3B、轻量级Qwen3-4B及Gemma-4-31B-IT构成的姊妹数据集,正推动科学领域合成数据生成范式的标准化,尤其在科学假设生成、多步推理验证等前沿任务中,同类数据集已成为衡量模型推理一致性、校准能力的关键基准。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务