five

BoDmagh dataset

收藏
github2025-04-01 更新2025-03-30 收录
下载链接:
https://github.com/ImadSaddik/BoDmaghDataset
下载链接
链接失效反馈
官方服务:
资源简介:
BoDmagh数据集是一个用于Darija语言的监督微调(SFT)数据集,以JSON格式存储,包含用户和助手之间的对话。数据集每日更新,确保高质量。

The BoDmagh dataset is a supervised fine-tuning (SFT) dataset for the Darija language. It is stored in JSON format and contains dialogues between users and assistants. This dataset is updated daily to ensure high quality.
创建时间:
2025-03-23
原始信息汇总

BoDmagh数据集概述

数据集基本信息

  • 语言:Darija(摩洛哥阿拉伯语)
  • 类型:监督微调(SFT)数据集
  • 格式:JSON
  • 内容:用户与助手之间的对话记录
  • 更新频率:每日更新

数据集结构

  • 每个JSON项为一个对话列表
  • 列表包含多个对象,每个对象代表对话中的一个回合
  • 回合标记为userassistant
  • 可选的system消息需手动添加在列表开头

数据示例特征

  1. 典型对话结构: json [ {"role": "user", "content": "用户输入"}, {"role": "assistant", "content": "助手回复"} ]

  2. 助手名称:

    • 默认名称为بودماغ
    • 可自由替换为其他名称

特殊说明

  • 不包含特殊标记(token)
  • 允许使用者根据需要自行添加标记

贡献方式

  1. Fork仓库
  2. 创建新分支
  3. 添加对话条目
  4. 提交Pull Request

创建信息

  • 创建方式:人工手动创建
  • 当前耗时:5小时48分钟(持续增加中)
搜集汇总
数据集介绍
main_image_url
构建方式
在自然语言处理领域,针对低资源语言的语料库构建一直是一项具有挑战性的工作。BoDmagh数据集采用人工精校的方式构建,创建者投入了超过5小时48分钟的时间进行手工筛选和整理,并保持每日更新的频率。数据以JSON格式存储,每条记录包含用户与助手之间的多轮对话,严格区分用户提问和助手回复两种角色标签。为确保数据质量,创建者采用逐条审核机制,并保留了对话的原始语境和语言风格。
特点
该数据集最显著的特点是专注于摩洛哥方言Darija的对话场景,填补了该语言在监督微调领域的空白。数据采用多轮对话结构,完整保留了日常交流中的语言特征和文化元素。每条对话平均包含4-6个话轮,涉及旅游咨询、生活常识等实用场景。特别值得注意的是,数据集中助手角色具有个性化名称'بودماغ',这种拟人化设计增强了对话的真实感。数据集采用轻量级JSON格式,便于开发者直接集成到现有NLP流程中。
使用方法
使用该数据集时,建议先解析JSON文件中的对话结构,每个话轮包含'role'和'content'两个关键字段。开发者可根据需要添加系统提示词,或替换助手名称以适配不同应用场景。由于数据集未预设特殊标记,使用者可自由添加开始/结束标记等控制符。该数据特别适用于Darija语言的对话系统微调,建议结合Transformer架构进行迁移学习。对于希望贡献数据的开发者,可通过GitHub提交符合格式规范的新对话样本。
背景与挑战
背景概述
BoDmagh数据集是针对Darija语言设计的监督微调(SFT)数据集,由研究人员Imad Saddik手动构建并持续更新。Darija作为摩洛哥阿拉伯语方言,在自然语言处理领域长期面临资源匮乏的挑战。该数据集以JSON格式存储,包含用户与助手之间的多轮对话,旨在为Darija语言的对话系统开发提供高质量语料支持。其独特价值在于通过人工精细标注,解决了低资源方言在人工智能应用中数据稀缺的核心问题,为北非地区方言的NLP研究开辟了新途径。
当前挑战
构建BoDmagh数据集面临双重挑战:在领域问题层面,Darija作为混合了阿拉伯语、柏柏尔语和法语元素的方言,存在显著的语法不规则性和地域变体,这对对话系统的语义理解和生成准确性提出极高要求;在技术实施层面,完全依赖人工构建导致数据规模扩展受限,且需持续维护方言用词的地道性与时效性。此外,对话轮次间的逻辑连贯性保持、文化特定表达的准确捕捉,以及缺乏标准化拼写体系带来的标注歧义,均为数据集构建过程中的关键难点。
常用场景
经典使用场景
在自然语言处理领域,BoDmagh数据集为Darija方言的对话系统开发提供了宝贵的资源。该数据集通过精心设计的人工对话,展示了用户与助手之间的多轮互动,涵盖了日常交流、旅游咨询等多种场景。研究人员可以利用这些对话数据训练和优化针对Darija方言的聊天机器人,填补了该方言在NLP研究中的空白。
实际应用
在实际应用中,BoDmagh数据集能够支持开发面向摩洛哥地区的智能客服系统和虚拟助手。这些系统可以理解并回应Darija方言的查询,为当地用户提供旅游信息、生活建议等服务。此外,该数据集还可用于教育领域,帮助非母语者学习Darija方言,促进文化交流和语言学习。
衍生相关工作
基于BoDmagh数据集,研究人员已经开展了一系列关于方言NLP的工作。其中包括Darija方言的文本分类、情感分析和对话系统优化等研究。这些工作不仅扩展了数据集的应用范围,也为其他低资源语言的NLP研究提供了参考。部分研究还探索了如何将该数据集与其他阿拉伯语方言资源结合,以提升模型的泛化能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作