marin-community/openthoughts4-science-26041-prompts-qwen3-4b-n8-flattened-logprobs-k16

Name: marin-community/openthoughts4-science-26041-prompts-qwen3-4b-n8-flattened-logprobs-k16
Creator: marin-community
Published: 2026-05-06 09:23:16
License: 暂无描述

Hugging Face2026-05-06 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/marin-community/openthoughts4-science-26041-prompts-qwen3-4b-n8-flattened-logprobs-k16

下载链接

链接失效反馈

官方服务：

资源简介：

OpenThoughts-4 Science SDG: Qwen3-4B数据集包含来自Qwen/Qwen3-4B模型的合成生成文本，基于科学相关的提示集。每个提示生成8个样本，并存储每个生成令牌的选定令牌对数概率以及词汇表中前16个对数概率。该数据集支持蒸馏、KL风格微调、重新排名和不确定性分析。数据集包含208,328行，每行对应一个提示和样本索引对，并包含生成的文本、令牌ID、对数概率等信息。数据集以Apache 2.0许可证发布。

The OpenThoughts-4 Science SDG: Qwen3-4B dataset contains synthetic generations from the Qwen/Qwen3-4B model based on a set of science-related prompts. Each prompt is sampled 8 times, and the dataset stores the chosen-token log probability plus the top-16 log probabilities over the vocabulary for every generated token, enabling distillation, KL-style fine-tuning, reranking, and uncertainty analysis. The dataset consists of 208,328 rows, each corresponding to a (prompt, sample_index) pair, and includes generated text, token IDs, log probabilities, and more. The dataset is released under the Apache 2.0 license.

提供机构：

marin-community

搜集汇总

数据集介绍

构建方式

该数据集基于Marin OpenThoughts-4科学领域指令集构建，涵盖26,041条独特的科学问题提示。每条提示经由Qwen/Qwen3-4B模型进行8次独立采样（n=8），最大生成令牌数设为32,768，模型温度参数设定为0.8以平衡多样性与连贯性。推理过程依托配备vLLM引擎的TPU v6e-8集群完成，张量并行度为8，确保高效生成。最终数据以扁平的Parquet表格存储，每一行对应一个（提示，采样序号）组合，总计208,328条记录，并附有稳定全局唯一标识符便于后续关联与去重。

特点

数据集的核心特色在于其丰富的概率信息存储：对于每个生成令牌，不仅记录所选令牌的对数概率，还存储词汇表中排名前16的对数概率（top-16 logprobs），形成长度为T×k的扁平列表。这种设计使得研究者能够执行知识蒸馏、KL散度微调、重排序以及不确定性分析等高级任务。此外，数据涵盖多种生成元模型（如Qwen3-4B、Qwen3-32B等），便于进行跨模型的对比研究。文件分片为约2,700个Parquet文件，支持按需加载与分布式处理。

使用方法

用户可通过HuggingFace Datasets库加载默认配置的完整训练集。对于存储为扁平一维数组的top-k概率，需利用NumPy或类似工具将其重塑为标准的（T, k）二维形状：首先从每行获取generated_token_ids的长度T，再将generated_top_logprob_token_ids与generated_top_logprobs分别重塑。若需获取所选令牌的对数概率，应直接使用generated_token_logprobs字段，因所选令牌未必出现在top-k中。数据可广泛用于对话生成、模型蒸馏、不确定性量化等自然语言处理研究方向。

背景与挑战

背景概述

该数据集由marin-community社区于2025年基于Qwen3-4B模型构建，旨在服务于科学领域的合成数据生成（SDG）与模型蒸馏研究。核心研究问题聚焦于如何通过大规模、多样化的科学问题提示集（源自OpenThoughts-4项目的26,041条科学问题）及多轮采样（每个提示采样8次），生成带有完整对数概率信息的模型响应，以支持知识蒸馏、KL散度微调、重排序及不确定性分析等高级训练范式。该数据集对推进科学推理任务的模型压缩与知识迁移具有重要价值，为后续多模型对比（如Qwen3-32B、Gemma-4等）提供了基准参考。

当前挑战

所解决的领域挑战在于科学推理任务中高质量合成数据稀缺且缺乏细粒度概率信息，传统数据集仅提供最终文本，无法支撑对数概率级别的模型行为分析与蒸馏优化。构建过程中面临的关键挑战包括：在TPU v6e-8硬件上高效调用vLLM推理引擎，对每个提示生成多达32,768个token的长序列，并同步存储每步生成的top-16候选词对数概率；需将繁杂的扁平化存储结构（如generated_top_logprob_token_ids）设计为可逆的(T, k)张量格式，确保用户能可靠还原逐步骤概率分布；此外，需平衡约2700个parquet分片文件的加载效率与数据完整性，避免大规模序列化过程中的精度损失与内存溢出问题。

常用场景

经典使用场景

该数据集为科学推理领域的语言模型研究提供了丰富的合成数据资源，特别适用于探索模型在多步推理过程中的内部表征与行为。其核心设计围绕Qwen3-4B模型在26,041条科学提示上的8次采样，共产生208,328条生成结果，每条响应均包含完整的token序列、每个生成token的对数概率以及词汇表上前16个候选token的对数概率。这种细粒度的概率结构使得数据集成为知识蒸馏、KL散度微调、重排序策略以及不确定性量化等研究的理想实验床。研究者可以通过分析每个解码步骤中候选token的概率分布，深入理解模型在科学问题解决中的决策偏好与置信度变化轨迹。

衍生相关工作

该数据集催生了一系列关于科学推理中模型行为分析的经典工作。研究者基于其丰富的对数概率信息，开发了面向语言模型推理过程的校准评估方法，揭示了不同规模模型在科学问题上的不确定表达差异。与此同时，利用top-k概率矩阵进行有效知识蒸馏的策略在该数据集上得到了系统验证，推动了小模型在科学推理任务上追赶大模型表现的研究进展。此外，基于该数据集的重排序实验也为构建更高效的推理时搜索算法提供了实证依据，促进了推理增强技术在科学领域的深入应用。

数据集最近研究