BoDmagh dataset
收藏github2025-04-01 更新2025-03-30 收录
下载链接:
https://github.com/ImadSaddik/BoDmaghDataset
下载链接
链接失效反馈官方服务:
资源简介:
BoDmagh数据集是一个用于Darija语言的监督微调(SFT)数据集,以JSON格式存储,包含用户和助手之间的对话。数据集每日更新,确保高质量。
The BoDmagh dataset is a supervised fine-tuning (SFT) dataset for the Darija language. It is stored in JSON format and contains dialogues between users and assistants. This dataset is updated daily to ensure high quality.
创建时间:
2025-03-23
原始信息汇总
BoDmagh数据集概述
数据集基本信息
- 语言:Darija(摩洛哥阿拉伯语)
- 类型:监督微调(SFT)数据集
- 格式:JSON
- 内容:用户与助手之间的对话记录
- 更新频率:每日更新
数据集结构
- 每个JSON项为一个对话列表
- 列表包含多个对象,每个对象代表对话中的一个回合
- 回合标记为
user或assistant - 可选的
system消息需手动添加在列表开头
数据示例特征
-
典型对话结构: json [ {"role": "user", "content": "用户输入"}, {"role": "assistant", "content": "助手回复"} ]
-
助手名称:
- 默认名称为
بودماغ - 可自由替换为其他名称
- 默认名称为
特殊说明
- 不包含特殊标记(token)
- 允许使用者根据需要自行添加标记
贡献方式
- Fork仓库
- 创建新分支
- 添加对话条目
- 提交Pull Request
创建信息
- 创建方式:人工手动创建
- 当前耗时:5小时48分钟(持续增加中)
搜集汇总
数据集介绍

构建方式
在自然语言处理领域,针对低资源语言的语料库构建一直是一项具有挑战性的工作。BoDmagh数据集采用人工精校的方式构建,创建者投入了超过5小时48分钟的时间进行手工筛选和整理,并保持每日更新的频率。数据以JSON格式存储,每条记录包含用户与助手之间的多轮对话,严格区分用户提问和助手回复两种角色标签。为确保数据质量,创建者采用逐条审核机制,并保留了对话的原始语境和语言风格。
特点
该数据集最显著的特点是专注于摩洛哥方言Darija的对话场景,填补了该语言在监督微调领域的空白。数据采用多轮对话结构,完整保留了日常交流中的语言特征和文化元素。每条对话平均包含4-6个话轮,涉及旅游咨询、生活常识等实用场景。特别值得注意的是,数据集中助手角色具有个性化名称'بودماغ',这种拟人化设计增强了对话的真实感。数据集采用轻量级JSON格式,便于开发者直接集成到现有NLP流程中。
使用方法
使用该数据集时,建议先解析JSON文件中的对话结构,每个话轮包含'role'和'content'两个关键字段。开发者可根据需要添加系统提示词,或替换助手名称以适配不同应用场景。由于数据集未预设特殊标记,使用者可自由添加开始/结束标记等控制符。该数据特别适用于Darija语言的对话系统微调,建议结合Transformer架构进行迁移学习。对于希望贡献数据的开发者,可通过GitHub提交符合格式规范的新对话样本。
背景与挑战
背景概述
BoDmagh数据集是针对Darija语言设计的监督微调(SFT)数据集,由研究人员Imad Saddik手动构建并持续更新。Darija作为摩洛哥阿拉伯语方言,在自然语言处理领域长期面临资源匮乏的挑战。该数据集以JSON格式存储,包含用户与助手之间的多轮对话,旨在为Darija语言的对话系统开发提供高质量语料支持。其独特价值在于通过人工精细标注,解决了低资源方言在人工智能应用中数据稀缺的核心问题,为北非地区方言的NLP研究开辟了新途径。
当前挑战
构建BoDmagh数据集面临双重挑战:在领域问题层面,Darija作为混合了阿拉伯语、柏柏尔语和法语元素的方言,存在显著的语法不规则性和地域变体,这对对话系统的语义理解和生成准确性提出极高要求;在技术实施层面,完全依赖人工构建导致数据规模扩展受限,且需持续维护方言用词的地道性与时效性。此外,对话轮次间的逻辑连贯性保持、文化特定表达的准确捕捉,以及缺乏标准化拼写体系带来的标注歧义,均为数据集构建过程中的关键难点。
常用场景
经典使用场景
在自然语言处理领域,BoDmagh数据集为Darija方言的对话系统开发提供了宝贵的资源。该数据集通过精心设计的人工对话,展示了用户与助手之间的多轮互动,涵盖了日常交流、旅游咨询等多种场景。研究人员可以利用这些对话数据训练和优化针对Darija方言的聊天机器人,填补了该方言在NLP研究中的空白。
实际应用
在实际应用中,BoDmagh数据集能够支持开发面向摩洛哥地区的智能客服系统和虚拟助手。这些系统可以理解并回应Darija方言的查询,为当地用户提供旅游信息、生活建议等服务。此外,该数据集还可用于教育领域,帮助非母语者学习Darija方言,促进文化交流和语言学习。
衍生相关工作
基于BoDmagh数据集,研究人员已经开展了一系列关于方言NLP的工作。其中包括Darija方言的文本分类、情感分析和对话系统优化等研究。这些工作不仅扩展了数据集的应用范围,也为其他低资源语言的NLP研究提供了参考。部分研究还探索了如何将该数据集与其他阿拉伯语方言资源结合,以提升模型的泛化能力。
以上内容由遇见数据集搜集并总结生成



