marin-community/open-thoughts-4-30k-math-qwen3-30b-a3B-thinking-2507-annotated-32768-tokens-n8-reformatted
收藏Hugging Face2026-04-01 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/marin-community/open-thoughts-4-30k-math-qwen3-30b-a3B-thinking-2507-annotated-32768-tokens-n8-reformatted
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: row_id
dtype: int64
- name: instruction_seed
dtype: string
- name: _source
dtype: string
- name: gpt41_mini_response
dtype: string
- name: __original_row_idx
dtype: int64
- name: length
dtype: int64
- name: ms_id
dtype: int64
- name: generated_text
dtype: string
- name: final_answer
dtype: string
- name: complete_responses_count
dtype: int64
splits:
- name: train
num_bytes: 14232503186
num_examples: 239704
download_size: 5334770426
dataset_size: 14232503186
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
# Dataset Card for Open-Thoughts-4-30K-Math-Qwen3-30B-A3B-Thinking-2507-Annotated-32768-Tokens-N8-Reformatted
## Overview
This dataset is a reformatted version of [marin-community/open-thoughts-4-30k-math-qwen3-30b-a3B-thinking-2507-annotated-32768-tokens-n8](https://huggingface.co/datasets/marin-community/open-thoughts-4-30k-math-qwen3-30b-a3B-thinking-2507-annotated-32768-tokens-n8). The original dataset contained 29,963 samples, each with 8 responses generated by the same model with different random seeds (stored in `generated_text`, `generated_text2`, ..., `generated_text8` columns). This reformatted version expands each response into its own row, resulting in **29,963 x 8 = 239,704 samples** with a single `generated_text` column.
The rows are ordered so that the `ms_id` ordering matches the reference dataset [marin-community/open-thoughts-4-30k-math-qwen3-32b-annotated](https://huggingface.co/datasets/marin-community/open-thoughts-4-30k-math-qwen3-32b-annotated). All 8 responses for a given prompt appear contiguously (e.g., rows 0-7 share the same prompt, rows 8-15 share the next prompt, and so on).
## Generation Details
- **Model:** [Qwen/Qwen3-30B-A3B-Thinking-2507](https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507)
- **Temperature:** 0.8
- **Max Output Tokens:** 32768
- **Responses per prompt:** 8 (different random seeds)
Note: Model responses do not include a starting `<think>` token but do include an ending `</think>` token.
## Dataset Statistics
- **Number of Samples:** 239,704
- **Number of Unique Prompts:** 29,963
- **Responses per Prompt:** 8
## Dataset Structure
| Column | Description |
|--------|-------------|
| `row_id` | A unique row identifier (0 to 239,703) |
| `instruction_seed` | The original math problem/question text without chat formatting |
| `_source` | The origin dataset (e.g., `ai2-adapt-dev/openmath-2-math`); tracks data provenance |
| `gpt41_mini_response` | A reference solution generated by GPT-4.1 Mini |
| `__original_row_idx` | The row index from the original source dataset before filtering/processing |
| `length` | The token count of the response in `gpt41_mini_response` |
| `ms_id` | A unique sample identifier (shared across the 8 responses for the same prompt) |
| `generated_text` | A response including chain-of-thought with `</think>` tags, generated by Qwen3-30B-A3B-Thinking-2507 |
| `final_answer` | The extracted final answer from `\boxed{...}` after the `</think>` token, or `N/A` if the response is incomplete |
| `complete_responses_count` | Number of complete responses (0-8) for this prompt; a response is complete if it contains `</think>` followed by a valid `\boxed{...}` |
## Related Datasets
- [open-thoughts-4-30k-math-qwen3-30b-a3B-thinking-2507-annotated-32768-tokens-n8](https://huggingface.co/datasets/marin-community/open-thoughts-4-30k-math-qwen3-30b-a3B-thinking-2507-annotated-32768-tokens-n8) — Original dataset with 8 response columns per row
提供机构:
marin-community
搜集汇总
数据集介绍

构建方式
在数学推理数据集构建领域,该数据集通过重构原始数据架构而形成。原始数据集包含29,963个数学问题样本,每个样本由Qwen3-30B-A3B-Thinking-2507模型在温度参数0.8、最大输出标记32,768的条件下,使用八个不同随机种子生成八条思维链响应,并以独立列存储。重构过程将每条响应展开为独立行,形成239,704条样本,每条样本包含统一的生成文本列,同时保留原始提示的连续性排列,确保同一问题的八条响应在数据集中相邻出现。
使用方法
在数学推理模型训练与评估中,该数据集可作为多响应对比分析的基准资源。研究者可依据问题标识符聚合同一提示下的八条响应,用于评估模型输出的多样性、稳定性及思维链逻辑的合理性。同时,结合参考解答与完整性标注,能够系统性地检验模型在复杂数学问题上的分步推理能力与答案生成准确性。数据集的结构化设计也支持直接应用于监督微调或强化学习训练,以提升模型在链式思维任务中的表现。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,大规模、高质量的思维链数据集对于推动模型复杂问题求解能力至关重要。Open-Thoughts-4-30K-Math-Qwen3-30B-A3B-Thinking-2507-Annotated-32768-Tokens-N8-Reformatted数据集由Marin社区于近期构建,其核心研究问题聚焦于通过多样化生成策略增强大型语言模型在数学推理任务中的鲁棒性与泛化性能。该数据集基于Qwen3-30B-A3B-Thinking-2507模型,以0.8的温度参数与32768的最大输出令牌生成了八种不同随机种子下的响应,旨在为数学问题求解提供丰富的思维链范例,对提升模型的可解释性与推理准确性具有显著影响力。
当前挑战
该数据集致力于应对数学推理领域中模型输出一致性与思维链质量评估的挑战。具体而言,数学问题求解要求模型不仅生成最终答案,还需提供逻辑严密的推导过程,而思维链的多样性与正确性难以统一量化。在构建过程中,挑战包括处理大规模高令牌长度响应导致的数据存储与处理复杂度,确保八种生成响应在相同提示下保持语义连贯性与结构完整性,以及从非结构化模型输出中精准提取最终答案并验证其有效性,这些因素共同增加了数据集标注与质量控制的难度。
常用场景
经典使用场景
在数学推理与大型语言模型研究领域,该数据集为探索模型思维链生成与答案提取提供了标准化基准。其经典使用场景在于利用Qwen3-30B-A3B-Thinking-2507模型对近三万条数学问题生成多样化响应,每条提示对应八个独立生成的思维链文本,便于研究者系统分析模型在不同随机种子下的推理一致性、错误模式及输出稳定性。这种结构化的响应集合为评估模型数学问题解决能力、优化提示工程以及训练响应选择器奠定了数据基础。
解决学术问题
该数据集有效解决了数学自动推理研究中模型输出评估与比较的难题。通过提供每个问题对应的参考解决方案(GPT-4.1 Mini生成)与多个模型响应,它支持对思维链生成质量、最终答案准确性以及推理过程可靠性的量化分析。其意义在于促进了可解释人工智能的发展,使研究者能够深入探究大型语言模型在复杂数学任务中的内部推理机制,并为改进模型训练策略、减少幻觉现象提供了实证依据。
实际应用
在实际应用层面,该数据集可直接服务于教育科技与智能辅导系统的开发。基于其丰富的思维链示例,可以训练或微调模型以生成更具教学价值的解题步骤,辅助学生理解数学概念。同时,数据集中的多响应结构可用于构建自动评分系统,评估学生作答的合理性,或为自适应学习平台提供高质量的反馈内容。这些应用推动了人工智能在个性化教育中的落地,提升了学习效率与体验。
数据集最近研究
最新研究方向
在数学推理与大型语言模型领域,该数据集以其独特的链式思维标注和多样化响应生成机制,正成为前沿研究的关键资源。其核心价值在于通过Qwen3-30B-A3B-Thinking模型在固定温度下生成多组随机响应,为探索模型推理的稳定性与一致性提供了丰富样本。当前研究热点聚焦于利用此类数据优化思维链的可解释性评估框架,并推动数学问题求解中模型自我修正与答案提取技术的进步。该数据集的结构化设计,特别是包含GPT-4.1 Mini参考解与最终答案标注,显著促进了对比学习与误差分析,对提升人工智能的符号推理能力具有深远影响。
以上内容由遇见数据集搜集并总结生成



