DarijaStory

Hugging Face2024-11-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/MBZUAI-Paris/DarijaStory

下载链接

链接失效反馈

官方服务：

资源简介：

DarijaStory是一个故事续写数据集，包含从网站9esa.com抓取的4,392个摩洛哥达里亚语的长篇故事。该数据集适用于条件文本生成任务，特别是摩洛哥达里亚语的故事续写。数据集是单语的，由机器翻译生成。数据集包含三个主要字段：id、story_name和content。数据集分为一个训练集，包含4,392个实例。README文件还讨论了数据集的社会影响和潜在偏见，以及许可和引用信息。

创建时间：

2024-11-07

原始信息汇总

DarijaStory 数据集概述

数据集描述

数据集摘要

DarijaStory 是一个故事完成数据集，包含从 9esa 网站上抓取的 4,392 个长篇故事，这些故事以摩洛哥达里亚语（Darija）编写。

支持的任务和排行榜

任务类别: 条件文本生成
任务: 摩洛哥达里亚语的故事完成

语言

该数据集提供摩洛哥阿拉伯语（Darija）版本。

数据集结构

数据实例

每个数据实例包含一个故事或故事的一个章节。

示例数据实例:

json { id: 1170, story_name: قصة اللؤلؤة السوداء, content: حلات عوييناتها بتقااالة... حاسة بحرييق كيقطع فراااسها... قوي وعينيها مضببين ليها رؤيا ... هزات يديها بتقالة حطاتها فوق رااسها.... }

数据字段

id: (整数) 故事的索引。
story_name: (字符串) 故事名称。
content: (整数) 故事内容。

数据分割

数据集包含一个分割：

分割	实例数量
train	4,392

数据集创建

策划理由

该数据集从 9esa.com 网站上抓取，该网站包含以达里亚语编写的故事。

个人和敏感信息

该数据集不包含个人、私人或敏感信息。所有故事均为一般性内容，涵盖与摩洛哥相关的虚构或社会主题。

使用数据的注意事项

数据集的社会影响

该数据集促进了能够理解和生成摩洛哥达里亚语扩展叙事的语言模型的发展和评估，从而推动了在代表性不足的语言中的 NLP 进步，并支持 AI 应用中的文化多样性。

偏见的讨论

该数据集包含摩洛哥达里亚语的故事，这些故事可能反映了与摩洛哥相关的特定文化和社会主题。用户在使用该数据集进行一般语言模型应用时应意识到这一点。

附加信息

数据集策展人

MBZUAI-Paris 团队

许可信息

许可证: ODC-BY

引用信息

如果您在研究中使用此数据集，请引用我们的论文: none @article{shang2024atlaschatadaptinglargelanguage, title={Atlas-Chat: Adapting Large Language Models for Low-Resource Moroccan Arabic Dialect}, author={Guokan Shang and Hadi Abdine and Yousef Khoubrane and Amr Mohamed and Yassine Abbahaddou and Sofiane Ennadir and Imane Momayiz and Xuguang Ren and Eric Moulines and Preslav Nakov and Michalis Vazirgiannis and Eric Xing}, year={2024}, eprint={2409.17912}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.17912}, }

搜集汇总

数据集介绍

构建方式

DarijaStory数据集通过从9esa网站抓取摩洛哥达里贾语（Moroccan Darija）故事构建而成，共包含4,392篇长故事。这些故事涵盖了摩洛哥文化中的虚构和社会主题，确保了数据的多样性和代表性。数据集的构建过程注重内容的广泛性和文化相关性，为研究摩洛哥达里贾语的自然语言处理任务提供了丰富的语料资源。

特点

DarijaStory数据集以摩洛哥达里贾语为主要语言，专注于故事生成任务。其独特之处在于，所有故事均来源于摩洛哥本土文化背景，反映了该地区的语言特色和社会主题。数据集中的每篇故事均经过精心筛选，确保内容不包含个人或敏感信息，适合用于语言模型的训练和评估。此外，数据集的规模适中，包含数千篇故事，为研究提供了充足的样本支持。

使用方法

DarijaStory数据集适用于条件文本生成任务，特别是摩洛哥达里贾语的故事续写。研究人员可以通过加载数据集，利用其丰富的故事内容进行语言模型的训练和评估。数据集以单一训练集的形式提供，用户可直接将其应用于模型开发。在使用过程中，需注意数据集的文化背景，确保模型能够准确理解和生成符合摩洛哥文化语境的内容。此外，建议在研究中引用相关论文，以支持数据集的学术使用。

背景与挑战

背景概述

DarijaStory数据集由MBZUAI-Paris团队于2024年创建，旨在推动摩洛哥阿拉伯语（Darija）的自然语言处理研究。该数据集包含从9esa网站抓取的4,392个长故事，专注于条件文本生成任务，特别是故事补全。摩洛哥阿拉伯语作为一种低资源语言，长期以来在自然语言处理领域缺乏足够的关注。DarijaStory的推出填补了这一空白，为研究人员提供了丰富的语料资源，促进了摩洛哥阿拉伯语的语言模型开发与评估，同时也为文化多样性在人工智能应用中的体现提供了支持。

当前挑战

DarijaStory数据集在解决摩洛哥阿拉伯语文本生成任务时面临多重挑战。首先，摩洛哥阿拉伯语作为一种低资源语言，缺乏标准化的语法和词汇资源，这增加了语言模型训练的难度。其次，数据集中的故事内容反映了摩洛哥特定的文化和社会主题，可能导致模型在泛化到其他语境时出现偏差。此外，数据集的构建依赖于网络抓取技术，虽然确保了数据的丰富性，但也可能引入噪声和不一致性，影响模型的训练效果。这些挑战要求研究人员在模型设计和训练过程中采取额外的策略，以确保模型的鲁棒性和泛化能力。

常用场景

经典使用场景

DarijaStory数据集在自然语言处理领域主要用于摩洛哥阿拉伯语（Darija）的文本生成任务，特别是故事补全任务。该数据集通过提供大量摩洛哥方言的长篇故事，为研究人员和开发者提供了一个独特的资源，用于训练和评估生成模型在低资源语言环境下的表现。其经典使用场景包括生成连贯且符合文化背景的故事情节，以及探索方言文本生成的技术挑战。

解决学术问题

DarijaStory数据集解决了在低资源语言环境下进行文本生成的学术研究问题。摩洛哥阿拉伯语作为一种资源匮乏的方言，长期以来缺乏高质量的数据集支持其自然语言处理研究。该数据集填补了这一空白，为研究人员提供了丰富的文本资源，推动了方言语言模型的发展，并促进了文化多样性在人工智能领域的体现。

衍生相关工作

DarijaStory数据集衍生了一系列与低资源语言处理相关的研究工作。例如，基于该数据集的研究提出了针对摩洛哥阿拉伯语的预训练语言模型，如Atlas-Chat，该模型通过适应低资源方言环境，显著提升了生成文本的质量和连贯性。此外，该数据集还激发了更多关于方言文本生成、跨语言迁移学习以及文化多样性在人工智能中的应用研究。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集