five

marin-community/open-thoughts-4-1500-math-kimi-k2pt5-annotated-32768-tokens

收藏
Hugging Face2026-04-03 更新2026-04-05 收录
下载链接:
https://hf-mirror.com/datasets/marin-community/open-thoughts-4-1500-math-kimi-k2pt5-annotated-32768-tokens
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: row_id dtype: int64 - name: instruction_seed dtype: string - name: _source dtype: string - name: gpt41_mini_response dtype: string - name: __original_row_idx dtype: int64 - name: length dtype: int64 - name: ms_id dtype: int64 - name: generated_text dtype: string - name: final_answer dtype: string - name: complete_responses_count dtype: int64 - name: kimi_k2pt5_generated_text dtype: string splits: - name: train num_bytes: 546611200 num_examples: 12000 download_size: 521300000 dataset_size: 546611200 configs: - config_name: default data_files: - split: train path: data/train-* --- # open-thoughts-4-1500-math-kimi-k2pt5-annotated-32768-tokens Math reasoning responses generated by **Kimi K2.5** (moonshotai/Kimi-K2.5) via a Together AI dedicated instance. ## Overview - **Total rows:** 12,000 - **Unique prompts:** 1,500 (each with 8 response annotations) - **Source prompts:** [marin-community/open-thoughts-4-12k-math-qwen3-32b-annotated-32768-tokens-n8-reformatted](https://huggingface.co/datasets/marin-community/open-thoughts-4-12k-math-qwen3-32b-annotated-32768-tokens-n8-reformatted) - **Generation model:** [moonshotai/Kimi-K2.5](https://huggingface.co/moonshotai/Kimi-K2.5) - **Max tokens:** 32,768 - **Temperature:** 0.8 - **Tokenizer used for stats:** Qwen/Qwen2.5-3B ## Statistics | Metric | Value | |--------|-------| | Avg tokens per response | 22,027 | | Median tokens per response | 21,884 | | Responses with `<think>` tag | 100.0% | | Complete responses (has `</think>` + `\boxed{...}`) | 10,187/12,000 (84.9%) | | Truncated responses | 1,813/12,000 (15.1%) | | Empty responses | 0 | ## Columns | Column | Description | |--------|-------------| | `row_id` | Sequential identifier (0-11999) | | `instruction_seed` | The math problem prompt | | `kimi_k2pt5_generated_text` | Kimi K2.5 generated response (with `<think>...</think>` reasoning trace) | | `ms_id` | Math seed ID -- groups all 8 responses for the same prompt | | `_source` | Source dataset identifier | | `gpt41_mini_response` | GPT-4.1 mini reference response | | `length` | Response length | ## Response Format Each response in the `kimi_k2pt5_generated_text` column follows this format: ``` <think> [model's reasoning trace] </think> [final answer, typically containing \boxed{...}] ``` Responses that are truncated (hit the 32,768 token limit) may be missing the closing `</think>` tag and/or the `\boxed{...}` answer. ## Construction Generated by sending each of the 1,500 math prompts to Kimi K2.5 8 times (n=8) via a Together AI dedicated instance, with `max_tokens=32768` and `temperature=0.8`. The model's reasoning trace (from the `message.reasoning` API field) is wrapped in `<think>...</think>` tags.
提供机构:
marin-community
搜集汇总
数据集介绍
main_image_url
构建方式
在数学推理数据集构建领域,本数据集采用系统化生成策略,以1500个数学问题提示为种子,通过Together AI专用实例调用Kimi K2.5模型进行多轮响应生成。每个提示均执行8次独立采样,在温度参数0.8的设置下探索模型输出的多样性,同时将最大生成长度设定为32768个标记以容纳复杂推理过程。生成过程中特别提取模型API的推理轨迹字段,并自动封装于标准化标签内,形成结构化思维链记录。
特点
该数据集的核心特征体现在其深度标注的推理轨迹结构,所有响应均包含模型完整的思考过程记录,并以特定标签明确区分推理步骤与最终答案。数据规模达到12000条响应样本,其中84.9%的样本包含完整的推理闭环与标准数学答案格式,其余部分因标记长度限制呈现截断状态。值得注意的是,数据集在保持零空响应的同时,通过中位数21884标记的丰富内容密度,为数学推理机制研究提供了高信息量的观察窗口。
使用方法
研究人员可基于行标识符与数学种子编号的对应关系,系统分析同一问题下模型输出的稳定性与多样性。数据集中的思维链标签结构支持直接提取模型推理逻辑,配合参考响应字段可实现生成质量的对比评估。在具体应用中,建议优先筛选包含完整闭合标签的样本进行训练验证,针对截断样本可结合标记长度字段开展容错性研究,最终答案的标准化数学格式则为自动评估提供了结构化解析基础。
背景与挑战
背景概述
在人工智能与数学推理交叉领域,高质量、结构化的思维链数据对于推动大语言模型在复杂问题求解能力上的发展至关重要。数据集 'open-thoughts-4-1500-math-kimi-k2pt5-annotated-32768-tokens' 应运而生,由研究社区基于开源协作模式构建。该数据集源自 'marin-community/open-thoughts-4-12k-math-qwen3-32b-annotated-32768-tokens-n8-reformatted' 中的数学提示,并利用 moonshotai 团队开发的 Kimi K2.5 模型,通过 Together AI 专用实例生成响应。其核心研究问题聚焦于收集和标注大规模、带有显式推理过程的数学问题解答,旨在为模型思维链的可解释性、推理步骤的完整性以及最终答案的准确性提供基准数据,从而深化对模型内部推理机制的理解与优化。
当前挑战
该数据集旨在应对数学推理领域中模型生成连贯、完整且正确思维链的挑战。具体而言,数学问题求解要求模型不仅输出最终答案,还需展示严谨的逻辑推导过程,这涉及多步骤推理、符号操作与常识整合,对模型的认知与泛化能力构成显著考验。在构建过程中,挑战同样突出:为确保数据质量,生成长度高达32,768令牌的响应,但约15.1%的响应因达到令牌上限而被截断,导致部分样本缺失关键的结束标签或答案框,影响了推理轨迹的完整性。此外,在八次重复生成同一提示以获取多样注解时,需平衡生成效率与计算资源消耗,同时维持响应格式的一致性,这对数据处理流程的鲁棒性提出了严格要求。
常用场景
经典使用场景
在数学推理与大型语言模型研究领域,open-thoughts-4-1500-math-kimi-k2pt5-annotated-32768-tokens数据集为模型思维链生成与评估提供了经典范例。该数据集通过Kimi K2.5模型对1500个数学问题生成带有结构化推理痕迹的响应,每个问题包含8次独立生成结果,形成丰富的对比样本。研究者可借此深入分析模型在复杂数学问题求解过程中的内部推理逻辑,评估其思维链的连贯性、正确性与完整性,为提升模型的可解释性与可靠性奠定数据基础。
实际应用
在实际应用中,该数据集为教育技术、智能辅导系统及自动化解题工具的开发提供了关键资源。教育机构可利用这些标注丰富的思维链数据训练或微调模型,生成更具解释性的解题步骤,辅助学生理解数学概念。同时,企业能够基于此数据集构建更可靠的数学问题求解引擎,应用于在线学习平台、科研辅助工具等领域,提升人工智能在专业领域服务的准确性与可信度。
衍生相关工作
围绕该数据集,已衍生出多项经典研究工作,主要集中在思维链优化、推理评估框架构建及模型对比分析方面。例如,研究者利用其多响应标注特性开发了基于一致性的推理质量评估方法,或通过分析思维链模式改进模型提示策略。这些工作不仅深化了对Kimi K2.5等模型数学推理能力的理解,也为后续更大规模、多领域的思维链数据集构建提供了方法论参考,推动了可解释人工智能领域的持续发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作