marin-community/openthoughts4-code-9168-prompts-qwen3-32b-n16-flattened-logprobs-k16
收藏Hugging Face2026-05-05 更新2026-05-10 收录
下载链接:
https://hf-mirror.com/datasets/marin-community/openthoughts4-code-9168-prompts-qwen3-32b-n16-flattened-logprobs-k16
下载链接
链接失效反馈官方服务:
资源简介:
OpenThoughts-4 Code SDG: Qwen3-32B (n=16, top-16 logprobs)数据集是基于Qwen/Qwen3-32B模型生成的合成数据,包含9,168个唯一提示,每个提示生成16个样本,总计146,688行数据。数据集存储了每个生成token的log概率及前16个log概率,支持蒸馏、KL风格微调、重新排名和不确定性分析。数据集的schema包括标识列和生成列,详细描述了每列的类型和用途。数据集还提供了生成设置、文件布局、伴随数据集、许可证和引用信息。
OpenThoughts-4 Code SDG: Qwen3-32B (n=16, top-16 logprobs) is a synthetic dataset generated from the Qwen/Qwen3-32B model, containing 9,168 unique prompts with 16 samples each, totaling 146,688 rows. The dataset stores the log probability of each generated token and the top-16 log probabilities, enabling distillation, KL-style fine-tuning, reranking, and uncertainty analysis. The schema includes identifier columns and generation columns, detailing the type and purpose of each column. The dataset also provides generation setup, file layout, companion datasets, license, and citation information.
提供机构:
marin-community
搜集汇总
数据集介绍

构建方式
该数据集由Marin社区基于Qwen/Qwen3-32B模型构建,旨在为代码生成领域的合成数据蒸馏与推理分析提供支持。其构建起点是OpenThoughts-4中的9,168条自然语言编程问题,经Qwen3聊天模板处理形成对话提示,随后由Qwen3-32B模型以温度0.8、最大生成长度32,768个token的参数配置进行推理,每组提示重复采样16次,共生成146,688条响应记录。推理过程借助vLLM引擎在TPU v6e-8集群上完成,并开启flat_logprobs选项以紧凑格式存储每一步词汇表上的前16个候选token的对数概率。
特点
该数据集的核心特点在于其丰富的概率信息层级:不仅记录每个生成token的对数概率,还以展平方式存储每一步的前16个候选token的ID及其对数概率,完整保留模型在生成过程中的置信度分布。数据以Parquet格式存储,包含提示索引、响应索引、全局唯一行标识符、原始编程问题、模板化提示、生成文本及各类概率字段,支持高效的分布式加载与查询。每条响应对应唯一的(prompt, response)对,便于与同系列其他模型生成的数据集进行横向比较或组合使用。
使用方法
用户可通过HuggingFace Datasets库加载该数据集,指定default配置即可读取全部train分片。对于存储为展平格式的top-k对数概率数组,需将其重塑为(T, k)二维结构以恢复每步的候选分布信息:令T为生成token数、k为16,利用NumPy的reshape操作完成转换。该数据集适用于知识蒸馏、KL散度微调、重排序任务及模型不确定性分析,用户还可根据prompt_index或_unique_row_id字段与其他同源数据集进行联合查询与交叉验证。
背景与挑战
背景概述
OpenThoughts-4 Code SDG数据集由Marin社区于2025年发布,基于Qwen3-32B模型在9168个编程提示上通过16次采样生成,共计146688条数据。该数据集聚焦于代码生成领域,旨在为大型语言模型的推理能力研究提供细粒度的对数概率信息,包括每个生成token的top-16候选概率。它延续了OpenThoughts系列在合成数据生成与蒸馏训练方面的探索,为后续的KL散度微调、重排序及不确定性分析提供了关键基准资源,对推动代码智能与推理优化领域的发展具有重要价值。
当前挑战
该数据集主要应对两大挑战:其一,在代码生成领域中,现有数据集缺乏足够细粒度的模型概率信息,难以支撑对模型推理不确定性的深入分析或高效的蒸馏训练,而本数据集通过存储逐token的top-16对数概率,使得研究者能够更精确地捕捉模型在代码生成任务中的置信度分布与决策机制。其二,在构建过程中,需要平衡海量采样(n=16,生成token数高达32768)与存储效率,开发者采用了扁平化的对数概率结构以压缩数据维度,同时借助TPU v6e-8集群和vLLM推理引擎确保生成可行性,但数据处理流程仍需额外的形状转换步骤,增加了下游使用的复杂度。
常用场景
经典使用场景
在代码生成与推理领域的探索中,OpenThoughts-4 Code SDG数据集凭借其精细的结构化设计,成为监督式微调与强化学习的理想基石。该数据集基于9,168个来自OpenThoughts-4的原创编程问题,通过Qwen3-32B模型以温度0.8采样16次,生成了超过14万条代码响应。每条记录不仅包含生成的文本与令牌序列,还完整存储了每个令牌的对数概率及词表上排名前16的候选概率,为知识蒸馏、KL散度微调和重排序提供了丰沛的概率分布信息。研究者可借此数据集进行指令微调,提升模型在代码生成任务中的准确性与多样性,亦可利用其概率分布进行不确定性分析,优化模型决策边界。其平铺化的Parquet格式极大便利了大规模分布式处理,成为代码智能领域实验复现与模型优化的标准参考。
解决学术问题
该数据集精准回应了代码生成领域对高质量、细粒度监督信号的迫切需求。传统代码数据集仅提供成对的输入输出,难以支撑对模型推理过程与不确定性的深度剖析。而OpenThoughts-4 Code SDG通过存储每步令牌的top-16对数概率,使得研究者能够开展基于概率的模型行为分析,例如探究模型在复杂代码问题上的置信度分布、识别生成错误时的概率退化模式,以及设计基于对数似然的奖励模型进行强化学习。该数据集填补了代码领域缺少开源、大规模、带有完整概率标注的指令数据的空白,推动了从简单模仿学习向概率建模与不确定性感知的范式转变,其影响力延伸至自监督学习、对比学习乃至代码安全性评估等多个交叉方向。
衍生相关工作
围绕该数据集,一系列经典工作已蓬勃展开。在模型蒸馏方面,研究者利用其top-16对数概率作为软标签,训练小型模型在代码生成任务上复现大模型的概率分布,代表性工作如基于Qwen3-32B蒸馏至Qwen3-4B的对比数据集生成。在强化学习领域,该数据集的对数概率信息被直接用于PPO和GRPO的奖励设计,开创了代码生成中基于令牌级不确定性的策略优化方法。此外,有工作探索了利用该数据集进行模型校准研究,通过分析生成令牌的概率与实际准确性之间的关系,提出新的模型置信度校准技术。该数据集还催生了代码生成中的不确定性量化基准,推动了对模型‘知道什么、不知道什么’的深入理解,进而衍生出自我纠正、迭代细化等前沿方向,为可解释代码生成奠定了基础。
以上内容由遇见数据集搜集并总结生成



