BoDmagh dataset

github2025-04-01 更新2025-03-30 收录

下载链接：

https://github.com/ImadSaddik/BoDmaghDataset

下载链接

链接失效反馈

官方服务：

资源简介：

BoDmagh数据集是一个用于Darija语言的监督微调（SFT）数据集，以JSON格式存储，包含用户和助手之间的对话。数据集每日更新，确保高质量。

The BoDmagh dataset is a supervised fine-tuning (SFT) dataset for the Darija language. It is stored in JSON format and contains dialogues between users and assistants. This dataset is updated daily to ensure high quality.

创建时间：

2025-03-23

原始信息汇总

BoDmagh数据集概述

数据集基本信息

语言：Darija（摩洛哥阿拉伯语）
类型：监督微调(SFT)数据集
格式：JSON
内容：用户与助手之间的对话记录
更新频率：每日更新

数据集结构

每个JSON项为一个对话列表
列表包含多个对象，每个对象代表对话中的一个回合
回合标记为user或assistant
可选的system消息需手动添加在列表开头

数据示例特征

典型对话结构： json [ {"role": "user", "content": "用户输入"}, {"role": "assistant", "content": "助手回复"} ]
助手名称：
- 默认名称为بودماغ
- 可自由替换为其他名称

特殊说明

不包含特殊标记(token)
允许使用者根据需要自行添加标记

贡献方式

Fork仓库
创建新分支
添加对话条目
提交Pull Request

创建信息

创建方式：人工手动创建
当前耗时：5小时48分钟（持续增加中）

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，针对低资源语言的语料库构建一直是一项具有挑战性的工作。BoDmagh数据集采用人工精校的方式构建，创建者投入了超过5小时48分钟的时间进行手工筛选和整理，并保持每日更新的频率。数据以JSON格式存储，每条记录包含用户与助手之间的多轮对话，严格区分用户提问和助手回复两种角色标签。为确保数据质量，创建者采用逐条审核机制，并保留了对话的原始语境和语言风格。

特点

该数据集最显著的特点是专注于摩洛哥方言Darija的对话场景，填补了该语言在监督微调领域的空白。数据采用多轮对话结构，完整保留了日常交流中的语言特征和文化元素。每条对话平均包含4-6个话轮，涉及旅游咨询、生活常识等实用场景。特别值得注意的是，数据集中助手角色具有个性化名称'بودماغ'，这种拟人化设计增强了对话的真实感。数据集采用轻量级JSON格式，便于开发者直接集成到现有NLP流程中。

使用方法

使用该数据集时，建议先解析JSON文件中的对话结构，每个话轮包含'role'和'content'两个关键字段。开发者可根据需要添加系统提示词，或替换助手名称以适配不同应用场景。由于数据集未预设特殊标记，使用者可自由添加开始/结束标记等控制符。该数据特别适用于Darija语言的对话系统微调，建议结合Transformer架构进行迁移学习。对于希望贡献数据的开发者，可通过GitHub提交符合格式规范的新对话样本。

背景与挑战

背景概述

BoDmagh数据集是针对Darija语言设计的监督微调（SFT）数据集，由研究人员Imad Saddik手动构建并持续更新。Darija作为摩洛哥阿拉伯语方言，在自然语言处理领域长期面临资源匮乏的挑战。该数据集以JSON格式存储，包含用户与助手之间的多轮对话，旨在为Darija语言的对话系统开发提供高质量语料支持。其独特价值在于通过人工精细标注，解决了低资源方言在人工智能应用中数据稀缺的核心问题，为北非地区方言的NLP研究开辟了新途径。

当前挑战

构建BoDmagh数据集面临双重挑战：在领域问题层面，Darija作为混合了阿拉伯语、柏柏尔语和法语元素的方言，存在显著的语法不规则性和地域变体，这对对话系统的语义理解和生成准确性提出极高要求；在技术实施层面，完全依赖人工构建导致数据规模扩展受限，且需持续维护方言用词的地道性与时效性。此外，对话轮次间的逻辑连贯性保持、文化特定表达的准确捕捉，以及缺乏标准化拼写体系带来的标注歧义，均为数据集构建过程中的关键难点。

常用场景

经典使用场景

在自然语言处理领域，BoDmagh数据集为Darija方言的对话系统开发提供了宝贵的资源。该数据集通过精心设计的人工对话，展示了用户与助手之间的多轮互动，涵盖了日常交流、旅游咨询等多种场景。研究人员可以利用这些对话数据训练和优化针对Darija方言的聊天机器人，填补了该方言在NLP研究中的空白。

实际应用

在实际应用中，BoDmagh数据集能够支持开发面向摩洛哥地区的智能客服系统和虚拟助手。这些系统可以理解并回应Darija方言的查询，为当地用户提供旅游信息、生活建议等服务。此外，该数据集还可用于教育领域，帮助非母语者学习Darija方言，促进文化交流和语言学习。

衍生相关工作

基于BoDmagh数据集，研究人员已经开展了一系列关于方言NLP的工作。其中包括Darija方言的文本分类、情感分析和对话系统优化等研究。这些工作不仅扩展了数据集的应用范围，也为其他低资源语言的NLP研究提供了参考。部分研究还探索了如何将该数据集与其他阿拉伯语方言资源结合，以提升模型的泛化能力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集