DeepSeek-r1-Distill-Bangla-MMLU-Reasoning-Data

Hugging Face2025-04-06 更新2025-04-07 收录

下载链接：

https://huggingface.co/datasets/KillerShoaib/DeepSeek-r1-Distill-Bangla-MMLU-Reasoning-Data

下载链接

链接失效反馈

官方服务：

资源简介：

Bangla-Disti是一个基于Bangla-mmlu数据集的合成推理数据集，包含训练和测试两部分，共有17796个训练样本和2565个测试样本。数据集通过DeepSeek r1模型生成响应，并使用Gemini flash 2.0进行正确性验证和翻译。数据集完全使用孟加拉语，适用于问题回答、文本生成和文本到文本生成等任务。

Bangla-Disti is a synthetic reasoning dataset based on the Bangla-mmlu dataset, which includes training and test splits with 17796 training samples and 2565 test samples respectively. The responses of the dataset are generated by the DeepSeek R1 model, and correctness verification and translation are conducted using Gemini Flash 2.0. The entire dataset is fully in Bengali, and it is applicable to tasks such as question answering, text generation and text-to-text generation.

创建时间：

2025-04-06

原始信息汇总

DeepSeek R1 Bangla MMLU Distil 数据集概述

数据集基本信息

名称: DeepSeek R1 Bangla MMLU Distil Dataset
原始数据集: hishab/bangla-mmlu
语言: 孟加拉语 (bn)
大小分类: 10K<n<100K
下载大小: 44.9 MB
数据集大小: 127.7 MB

数据集特征

特征:
- id: 字符串类型
- reasoning_translation: 字符串类型
- ans_translation: 字符串类型
- question: 字符串类型
- options: 字符串序列
- answer: 字符串类型
- formated_question: 字符串类型

数据集划分

训练集 (train):
- 样本数量: 17,796
- 大小: 112.1 MB
测试集 (test):
- 样本数量: 2,565
- 大小: 15.6 MB

任务类别

问答 (question-answering)
文本生成 (text-generation)
文本到文本生成 (text2text-generation)

数据集创建过程

基础数据集: 使用 hishab/bangla-mmlu 数据集。
选择子集: 从原始数据集中选择子集。
生成响应: 使用 DeepSeek r1 模型生成响应。
分离正确与错误响应: 使用 Gemini flash 2.0 自动化分离正确响应。
翻译: 使用 Gemini flash 2.0 将响应翻译为孟加拉语。
翻译不完整样本: 单独翻译因 token 限制未完成的样本。

代码示例

python from datasets import load_dataset dataset = load_dataset("KillerShoaib/DeepSeek-r1-Distill-Bangla-MMLU-Reasoning-Data")

其他信息

总 API 成本: 7K BDT
正确回答比例: 约 86% (训练集和测试集合并)

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，跨语言知识迁移已成为重要研究方向。该数据集基于hishab/bangla-mmlu原始数据集，通过多阶段精细处理构建而成。首先从原始数据集中筛选子集，利用DeepSeek r1模型生成推理响应，随后通过Gemini flash 2.0自动验证响应准确性，最后将英文推理过程翻译为孟加拉语，确保数据集语言一致性。整个过程充分考虑了模型API的token限制等技术细节，体现了严谨的数据构建方法论。

特点

作为孟加拉语多任务语言理解数据集，该资源具有显著特色。数据集包含17，796条训练样本和2，565条测试样本，涵盖问题回答、文本生成等多种任务类型。其独特之处在于提供了双语对照内容，既保留原始孟加拉语问题，又包含模型生成的英文推理过程及其孟加拉语翻译。数据字段设计科学，包含格式化问题、选项、答案等结构化信息，为研究者提供了丰富的分析维度。86%的正确回答率保证了数据质量，为孟加拉语NLP研究提供了可靠基准。

使用方法

该数据集为孟加拉语自然语言处理研究提供了便捷资源。使用者可通过Hugging Face的datasets库直接加载，简单调用load_dataset函数即可获取训练集和测试集。数据以标准格式组织，包含id、问题、选项、答案等关键字段，便于模型训练和评估。研究者可利用该数据集进行跨语言知识迁移实验，或作为孟加拉语问答系统的基准测试数据。特别值得注意的是，数据集中的推理翻译字段为研究模型思维过程提供了独特视角，有助于理解大语言模型在低资源语言中的表现。

背景与挑战

背景概述

DeepSeek-r1-Distill-Bangla-MMLU-Reasoning-Data数据集由KillerShoaib团队于近期构建，旨在为孟加拉语自然语言处理领域提供高质量的推理数据支持。该数据集基于hishab团队开源的bangla-mmlu数据集，通过深度蒸馏技术将DeepSeek r1模型的推理能力迁移至孟加拉语语境。作为多任务语言理解（MMLU）框架下的衍生资源，其核心价值在于填补了孟加拉语复杂推理任务的训练数据空白，为低资源语言的认知智能研究提供了重要实验素材。数据集构建过程中采用了GRPO技术生成思维链，并通过Gemini flash 2.0实现英孟双语转换，体现了跨语言知识迁移的前沿探索。

当前挑战

该数据集面临的领域挑战主要来自孟加拉语复杂语义的理解与推理任务，包括多义词消歧、文化特定概念表达等低资源语言特有的语言认知难题。在构建过程中，技术团队需克服模型输出语言固化的限制（DeepSeek r1仅支持中英文思维链生成），通过双重API调用实现语义保真翻译。数据质量控制方面存在标签错位（<think>标签偏移）和长文本截断问题，需设计分层处理流程。此外，基准模型86%的准确率表明推理质量仍有提升空间，如何平衡成本约束与数据规模也是资源受限语言研究的普遍困境。

常用场景

经典使用场景

在自然语言处理领域，DeepSeek-r1-Distill-Bangla-MMLU-Reasoning-Data数据集为孟加拉语的多选题理解和推理任务提供了重要资源。该数据集通过精心设计的格式和翻译过程，使得研究者能够深入探索模型在复杂语境下的推理能力。其经典使用场景包括评估和提升语言模型在孟加拉语多选题解答任务中的表现，尤其是在跨语言迁移学习和知识蒸馏方面展现出独特价值。

衍生相关工作

基于该数据集衍生的经典工作主要集中在多语言模型的知识蒸馏领域。研究者们利用其双语对齐特性，探索了从大语言模型到小语种模型的推理能力迁移方法。相关研究还拓展到跨文化认知差异分析，通过比较不同语言背景下的推理模式，为构建更具文化适应性的NLP系统提供了实证依据。

数据集最近研究