marin-community/openthoughts4-code-9168-prompts-qwen3-30b-a3b-thinking-2507-n16-flattened-logprobs-k16

Name: marin-community/openthoughts4-code-9168-prompts-qwen3-30b-a3b-thinking-2507-n16-flattened-logprobs-k16
Creator: marin-community
Published: 2026-05-05 08:12:15
License: 暂无描述

Hugging Face2026-05-05 更新2026-05-10 收录

下载链接：

https://hf-mirror.com/datasets/marin-community/openthoughts4-code-9168-prompts-qwen3-30b-a3b-thinking-2507-n16-flattened-logprobs-k16

下载链接

链接失效反馈

官方服务：

资源简介：

OpenThoughts-4 Code SDG: Qwen3-30B-A3B-Thinking-2507 (n=16, top-16 logprobs)数据集包含来自Qwen/Qwen3-30B-A3B-Thinking-2507模型在Marin OpenThoughts-4代码SDG提示集上的合成生成内容。每个提示被采样16次，并且对于每个生成的令牌，数据集存储了所选令牌的对数概率以及词汇表中前16个对数概率。该数据集适用于蒸馏、KL风格微调、重新排名和不确定性分析等任务。数据集详细说明了生成设置、模式、文件布局、配套数据集、许可证和引用信息。

The dataset OpenThoughts-4 Code SDG: Qwen3-30B-A3B-Thinking-2507 (n=16, top-16 logprobs) contains synthetic generations from the Qwen/Qwen3-30B-A3B-Thinking-2507 model on the Marin OpenThoughts-4 code SDG prompt set. Each prompt is sampled 16 times, and for every generated token, the dataset stores the chosen-token log probability plus the top-16 log probabilities over the vocabulary. The dataset is intended for tasks like distillation, KL-style fine-tuning, reranking, and uncertainty analysis. The README includes details about the generation setup, schema, file layout, companion datasets, license, and citation information.

提供机构：

marin-community

搜集汇总

数据集介绍

构建方式

本数据集基于Marin OpenThoughts-4代码合成数据生成（SDG）提示集构建，该提示集包含9,168个独特的Python编程问题。生成模型选用Qwen/Qwen3-30B-A3B-Thinking-2507，采用vLLM推理引擎在TPU v6e-4集群上以张量并行度为4的配置运行。每个提示以温度0.8采样16次，最大生成令牌数设为32,768，模型最大序列长度为34,816。所有生成结果以扁平化Parquet格式存储，共包含146,688行数据，每行对应一个提示与采样索引的组合。

特点

数据集的核心特色在于其丰富的概率信息存储。对于每个生成令牌，不仅记录所选令牌的对数概率，还保存了词汇表上概率最高的前16个候选令牌及其对数概率。这些概率数据经过扁平化处理，每个令牌步的前k候选令牌ID和对数概率分别以长度为T×k的一维列表形式存储，便于后续通过重塑操作恢复为(T, k)的二维矩阵形式。此外，数据集提供了稳定的全局唯一行标识符，支持高效的连接与去重操作。

使用方法

数据集可通过Hugging Face Datasets库直接加载，使用默认配置即可读取完整的训练分割，所有约2,900个Parquet分片文件将自动被合并。为解析扁平化的前k概率数组，需使用NumPy对相应列进行重塑操作：首先读取令牌ID列表的长度T，然后将长度为T×16的top-k令牌ID和对数概率列表重塑为(T, 16)的矩阵。该数据结构特别适用于知识蒸馏、KL散度微调、重排序及不确定性分析等下游任务。

背景与挑战

背景概述

OpenThoughts-4 Code SDG数据集由Marin社区于2025年创建，基于Qwen3-30B-A3B-Thinking-2507模型对9,168个编程提示进行合成数据生成，旨在为大型语言模型的代码推理能力提供高质量训练资源。该数据集的核心研究问题在于如何通过多样化的采样策略与细粒度的概率信息（含top-16对数概率）赋能蒸馏、KL散度微调、重排序及不确定性分析等下游任务。其构建标志着开源社区在代码合成数据领域的重要进展，为提升模型在复杂编程问题上的推理准确性提供了标准化基准，对自然语言处理与软件工程的交叉领域产生了显著影响。

当前挑战

数据集面临的挑战可从两个维度理解。在领域问题层面，如何从海量合成数据中有效提取并泛化代码逻辑推理模式，避免模型过度依赖表面统计规律而忽视深层语义，是当前的主要障碍。在构建过程中，尽管通过n=16次采样提升了多样性，但vLLM推理引擎在TPU v6e-4上的高效部署面临大规模日志概率存储（约128 GB）与扁平化数组重塑的工程难题，同时需确保生成代码的语法正确性与逻辑自洽性，这对数据清洗与质量验证流程提出了极高要求。

常用场景

经典使用场景

在代码生成与推理对齐的交叉领域中，该数据集被广泛应用于思维链推理的蒸馏与监督微调。其设计核心在于利用生成模型对每个代码问题多次采样，并保留每一步的完整对数概率分布，这使得它成为知识蒸馏、KL散度对齐微调以及重排序任务的理想训练资源。研究者可借助该数据集中存储的top-16候选词概率信息，构建更加精准的推理路径选择机制，从而提升小模型在复杂编程任务上的生成质量与逻辑连贯性。

衍生相关工作

该数据集催生了多项具有影响力的相关研究工作。在模型压缩方向，研究者利用其概率分布信息开发了面向代码生成的高效蒸馏框架，成功将大模型推理能力迁移至参数量仅为原始模型十分之一的学生网络。在可解释性领域，数据中的逐步对数概率被用于构建推理轨迹的置信度评估方法，进而提出了基于不确定性驱动的动态推理策略。此外，该数据集还启发了针对代码生成中长序列依赖关系的注意力研究，以及基于对比学习的歧视性微调方法，扩展了代码智能的研究边界。

数据集最近研究