marin-community/openthoughts4-science-26041-prompts-qwen3-30b-a3B-thinking-2507-n8-flattened-logprobs-k16
收藏Hugging Face2026-05-06 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/marin-community/openthoughts4-science-26041-prompts-qwen3-30b-a3B-thinking-2507-n8-flattened-logprobs-k16
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是由Qwen/Qwen3-30B-A3B-Thinking-2507模型在Marin OpenThoughts-4科学SDG提示集上生成的合成数据。每个提示被采样8次,并且对于每个生成的令牌,数据集存储了所选令牌的对数概率以及词汇表中前16个对数概率。数据集包含208,328行,每行对应一个提示和样本索引对。数据集的模式包括标识符列和生成列,其中生成列包括生成的文本、令牌ID、对数概率等。数据集以parquet格式分片存储,约3,600个文件。
This dataset is synthetic data generated by the Qwen/Qwen3-30B-A3B-Thinking-2507 model on the Marin OpenThoughts-4 scientific SDG prompt set. Each prompt is sampled 8 times, and for each generated token, the dataset stores the log probability of the selected token along with the top 16 log probabilities from the vocabulary. The dataset contains 208,328 rows, where each row corresponds to a pair of prompt and sample index. The dataset schema includes identifier columns and generation columns, with the generation columns covering generated text, token IDs, log probabilities, and other related contents. The dataset is stored in sharded parquet format, with approximately 3,600 files in total.
提供机构:
marin-community
搜集汇总
数据集介绍

构建方式
该数据集源自Marin OpenThoughts-4科学可持续发展目标(Science SDG)提示集,基于Qwen3-30B-A3B-Thinking-2507模型进行合成生成。构建过程中,每个提示以温度参数0.8采样8次,生成文本的最大令牌数设定为32,768,模型最大长度可达34,816。推理引擎采用vLLM,运行于配备张量并行度为4的TPU v6e-4集群上。生成结果以扁平的Parquet表格形式存储,每个(prompt, sample_index)对占据一行,总计包含208,328行,对应26,041个独特提示及其8次采样输出。
特点
数据集的核心特色在于为每个生成令牌存储了选中的令牌对数概率以及词汇表上前16个候选令牌的对数概率。这种结构化的概率信息以扁平化列表形式保存,便于后续进行知识蒸馏、KL散度风格微调、重排序以及不确定性分析。此外,数据集提供了丰富的标识列,如prompt_index和_unique_row_id,支持稳定的跨表连接与去重操作,同时包含原始的instruction_seed和chat模板化后的generation_prompt,确保了生成过程的透明性和可追溯性。
使用方法
使用该数据集时,可通过HuggingFace Datasets库加载默认配置下的完整训练集,数据分片为约3,600个Parquet文件。对于扁平化的top-k数组,需利用NumPy的reshape方法将其恢复为(T, k)的标准形状,其中T为生成令牌数,k固定为16。选中的令牌对数概率可直接从generated_token_logprobs字段获取,而候选令牌的详细信息则存储在generated_top_logprob_token_ids和generated_top_logprobs中。研究者可依据具体任务需求,如微调、蒸馏或重排序,灵活提取并利用这些概率值。
背景与挑战
背景概述
OpenThoughts-4 Science SDG数据集由Marin社区于近期创建,旨在推动科学领域推理能力的研究。该数据集基于Qwen3-30B-A3B-Thinking-2507模型,针对Marin OpenThoughts-4科学提示集生成了合成数据,涵盖26,041个独特提示及其多次采样结果。其核心研究问题聚焦于如何利用大规模合成数据增强大语言模型在科学推理任务中的表现,并通过对每个生成token存储选择概率及top-16词汇表对数概率,为知识蒸馏、KL散度微调、重排序及不确定性分析提供关键资源。该数据集与Qwen3-32B、Qwen3-4B等变体共同构成一个可横向比较的数据系列,对科学推理领域的模型训练与评估具有重要参考价值。
当前挑战
该数据集所解决的领域问题在于科学推理任务中高质量监督数据的稀缺性,传统人工标注成本高昂且难以覆盖复杂科学问题的多样性,而合成数据生成则面临真实性验证与分布偏移的挑战。在构建过程中,面临的技术挑战包括:需在Qwen3-30B-A3B-Thinking-2507框架下确保大规模并行采样(n=8)的高效性与一致性,处理长达34,816个token的模型输入限制,并妥善管理海量数据存储(约208,328行)与扁平化top-k对数概率数组的还原复杂度。此外,如何通过温度参数0.8平衡生成多样性与质量,以及确保不同提示集间数据格式的兼容性,亦是构建过程的关键难点。
常用场景
经典使用场景
在科学推理与数学推导的学术疆域中,OpenThoughts-4 Science SDG数据集以其深邃的构造脱颖而出,成为探索大语言模型思维链与知识蒸馏的核心利器。该数据集基于Qwen3-30B-A3B-Thinking-2507模型,在26,041个科学提示上各生成8条响应,并细致记录了每个生成token的对数概率及top-16词汇的完整概率分布。这一设计使其天然适配于需要细粒度监督信号的场景,如基于KL散度的知识蒸馏、响应排序与不确定性量化分析,为科学领域大模型的认知深度提供了珍贵的实证土壤。
衍生相关工作
该数据集的诞生催生了一系列探索模型推理过程与知识迁移机制的经典工作。研究者们基于其提供的逐位置概率分布,开展了面向科学领域的层次化蒸馏方法研究,成功将Qwen3-30B-A3B-Thinking模型的深度推理能力压缩至轻量级架构中,显著提升了小模型解决科学问题的准确率与思维流畅性。同时,其多采样设计促进了针对模型不确定性校准的前沿探索,衍生出用于科学领域的贝叶斯蒸馏与集成排序策略,这些工作在各大顶级学术会议上引起广泛关注,进一步巩固了该数据集作为科学推理与蒸馏研究基石的地位。
数据集最近研究
最新研究方向
该数据集聚焦于科学领域推理能力的合成数据生成,通过Qwen3-30B-A3B-Thinking-2507模型对26,041条科学提示进行8次采样,并存储每个生成token的top-16对数概率,为模型蒸馏、KL散度微调、重排序及不确定性分析提供精细化的概率分布信息。其核心价值在于,通过大规模、高粒度的对数概率数据,支持对大型语言模型在科学推理任务中的行为进行深度剖析与优化,尤其在可持续发展目标(SDG)相关科学问题的解决路径探索中,为提升模型的推理透明度与可控性开辟了新范式。该数据集的出现,呼应了当前AI领域对可验证、可解释推理链的迫切需求,并有望推动科学文献自动生成与假设检验等前沿应用的发展。
以上内容由遇见数据集搜集并总结生成



