dhanishtha-2.0-superthinker-mlx

Name: dhanishtha-2.0-superthinker-mlx
Creator: MLX Community
Published: 2025-07-16 18:24:53
License: 暂无描述

Hugging Face2025-07-16 更新2025-07-17 收录

下载链接：

https://huggingface.co/datasets/mlx-community/dhanishtha-2.0-superthinker-mlx

下载链接

链接失效反馈

官方服务：

资源简介：

SUPERTHINKER数据集是一个包含11.7K高质量多语言样本的精简语料库，展示了多阶段推理和结构化情感认知。这些样本源自Dhanishtha-2.0模型的内部训练数据，该模型是世界上第一个实现中间思考的大型语言模型。数据集采用指令-输出格式，适合监督微调，并包含递归推理块和情感状态建模。

提供机构：

MLX Community

创建时间：

2025-07-10

原始信息汇总

📦 Dhanishtha-2.0-SUPERTHINKER-MLX 数据集概述

📜 基本信息

许可证: Apache-2.0
标签: AI, Intermediate Thinking, Multilingual, Reasoning, Emotional Intelligence, Dhanishtha, HelpingAI, Structured Thinking, Self-Correction, Chain-of-Thought, CoT
任务类别: 文本生成
语言: 包含39种语言，如英语、中文、法语、阿拉伯语等
数据规模: 10K<n<100K

📊 数据集内容

样本数量: 11.7K
格式: Instruction-Output 格式，适合监督微调
特点:
- 递归推理块 <think>...</think>
- 情感状态建模 <ser>...</ser>
- 提示类型包括哲学、技术、个人、伦理、数学和编程问题

🌐 语言覆盖

包含39种语言，如南非荷兰语、阿拉伯语、保加利亚语、加泰罗尼亚语、简体中文、捷克语、丹麦语、荷兰语、英语、芬兰语、法语、德语、希腊语、希伯来语、印地语、匈牙利语、印尼语、日语、韩语、马拉地语、挪威语、波斯语、波兰语、葡萄牙语、罗马尼亚语、俄语、西班牙语、斯瓦希里语、泰米尔语、泰卢固语、土耳其语、乌尔都语、乌克兰语、越南语等

⚙️ 核心创新：Intermediate Thinking

特点:
- 自我纠正
- 问题澄清和重构
- 多视角合成
- 自我纠正链
示例: plaintext <think>...</think>

💬 结构化情感推理

特点:
- 情感标注 <ser>...</ser>
- 包括情感、原因、思维和成长字段
示例: plaintext <ser>...</ser>

🧪 数据收集与处理

来源: 来自Dhanishtha-2.0的内部数据集
过滤: 0.25%的均匀随机样本
验证:
- 手动审查1,000个样本
- 启发式解析标记和丢弃格式错误的块
- 去重处理

📄 数据格式

jsonl {"messages": [{ "role": "system", "content": ""}, {"role": "user", "content": ""},{"role": "assistant", "content": ""}]}

🔬 预期用途

微调多语言或情感感知LLM
评估伦理和道德不确定性下的对齐
基准测试多阶段推理或内部独白生成
训练能够自我纠正或反思模糊性的COT模型

📄 引用

bibtex @misc{HAI2025dhanishtha, title = {Dhanishtha-2.0: A Large Language Model with Intermediate Thinking and Structured Empathy}, author = {Abhay Koul and Varun Gupta}, year = {2025}, publisher = {HelpingAI}, howpublished = {https://huggingface.co/HelpingAI/Dhanishtha-2.0-SUPERTHINKER} }

搜集汇总

数据集介绍

构建方式

在人工智能与认知科学交叉领域，Dhanishtha-2.0-SUPERTHINKER-MLX数据集的构建体现了严谨的工程方法论。该数据集从Dhanishtha-2.0大语言模型的内部训练数据中蒸馏提取，采用分层抽样策略获取11.7万条多语言样本，涵盖39种语言变体。构建过程包含自动化解析引擎对<think>推理块和<ser>情感块的语法验证，辅以人工抽检1000条样本的质量控制，并通过去重算法消除语义重复项，最终形成结构化的指令-输出对格式。

特点

作为首个融合中间思维与结构化情感认知的语料库，该数据集的核心价值在于其创新的标注范式。每个样本均包含多阶段<think>推理块实现自我修正机制，配合<ser>情感块对认知状态进行四维建模（情绪诱因、心智模式、成长轨迹）。数据覆盖哲学、伦理、数学等多元主题，其特色在于展现语言模型从初始假设到最终结论的动态推理过程，而非传统单次输出的静态结果。

使用方法

该数据集专为提升语言模型的递归思考能力设计，适用于MXNet-LM等框架的监督微调。典型应用场景包括：通过解析<think>块序列训练模型的自我修正能力，利用<ser>块开发情感感知系统，或构建多语言推理评估基准。技术实现上需注意4096的最大序列长度限制，建议配合LoRA等参数高效微调方法，在100轮迭代内即可观察到模型在复杂推理任务上的显著提升。

背景与挑战

背景概述

Dhanishtha-2.0-SUPERTHINKER-MLX数据集由HelpingAI团队于2025年推出，作为其旗舰大型语言模型Dhanishtha-2.0的核心训练数据子集。该数据集标志着人工智能领域在多层次推理与结构化情感认知方面的重大突破，首次系统性地将中间思维（Intermediate Thinking）机制引入自然语言处理。数据集包含11.7万条经过精馏的多语言样本，覆盖39种语言，其创新性体现在通过<think>推理块和<ser>情感块实现响应过程中的自我修正与情感状态建模。该成果不仅为复杂推理任务提供了新的研究范式，更推动了具有情感智能的对话系统发展，相关技术已被应用于哲学思辨、伦理决策等多维度认知任务。

当前挑战

构建该数据集面临双重挑战：在领域问题层面，需要解决传统语言模型单次推理的局限性，设计能够支持多阶段自我修正的标注体系，特别是在跨语言场景中保持推理逻辑的一致性；在技术实现层面，需克服多语言情感标注的语义差异，确保<ser>标签在不同文化语境下的有效性，同时处理大规模递归标注导致的数据稀疏问题。数据采样过程中还需平衡11.7万条样本在39种语言间的分布，避免低资源语言的表征偏差。此外，保持<think>块中探索性推理与最终结论的逻辑连贯性，构成了数据质量控制的重大挑战。

常用场景

经典使用场景

在自然语言处理领域，dhanishtha-2.0-superthinker-mlx数据集以其多阶段推理和结构化情感认知的特性，成为训练具有自我修正能力的语言模型的理想选择。该数据集通过<think>和<ser>标签的嵌套使用，模拟人类认知过程中的反思与情感调节机制，为研究者提供了探索复杂推理链的宝贵资源。其多语言特性进一步拓展了跨文化语境下的认知建模可能性。

衍生相关工作

基于该数据集衍生的Dhanishtha-2.0模型开创了中间思考范式，后续研究如Meta-Reflection框架进一步扩展了递归推理深度。EmoChain项目则专门利用<ser>标签开发了情感感知对话系统。在多语言方向，MLX-LM-LoRA团队通过该数据集实现了小参数模型的多语种推理能力迁移，相关成果发表在ACL等顶级会议。

数据集最近研究