Ali-C137/Goud-Sum-Instruct
收藏Hugging Face2023-09-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Ali-C137/Goud-Sum-Instruct
下载链接
链接失效反馈官方服务:
资源简介:
Goud-Sum-Instruct数据集是一个精心策划的数据集,源自Goud-sum数据集,主要用于微调聊天和指令模型,使其能够有效地响应摘要指令。数据集包含来自Goud.ma新闻网站的158k篇文章及其标题。文章使用阿拉伯文字书写,标题为摩洛哥达里亚语,文章内容可能是摩洛哥达里亚语、现代标准阿拉伯语或两者的混合。数据集分为训练集、验证集和测试集,分别包含139,288、9,497和9,497个实例。
提供机构:
Ali-C137
原始信息汇总
数据集概述
数据集描述
数据集摘要
Goud-Sum-Instruct 包含 158k 篇文章及其标题,这些文章来自 Goud.ma 新闻网站。文章使用阿拉伯文字书写。所有标题均为摩洛哥达里亚语,而文章可能是摩洛哥达里亚语、现代标准阿拉伯语或两者的混合(代码切换的摩洛哥达里亚语)。
支持的任务和排行榜
文本摘要
语言
- 摩洛哥阿拉伯语(达里亚语)
- 现代标准阿拉伯语
数据集结构
数据实例
数据集由字符串格式的文章-标题对组成。
数据字段
- article: 包含新闻文章正文的字符串
- headline: 包含文章标题的字符串
- categories: 文章类别的字符串列表
数据分割
Goud-Sum-Instruct 数据集分为三个部分:train、validation 和 test。以下是每个分割中的实例数量:
| 数据集分割 | 分割中的实例数量 |
|---|---|
| Train | 139,288 |
| Validation | 9,497 |
| Test | 9,497 |
数据集创建
数据来源
初始数据收集和规范化
[需要更多信息]
源语言生产者是谁?
文本由 Goud 的记者编写。
注释
数据集不包含任何额外注释。
注释过程
[不适用]
注释者是谁?
[不适用]
个人和敏感信息
[需要更多信息]
使用数据的注意事项
数据集的社会影响
[需要更多信息]
偏见的讨论
[需要更多信息]
其他已知限制
[需要更多信息]
附加信息
数据集策展人
[需要更多信息]
许可信息
[需要更多信息]
引用信息
@inproceedings{issam2022goudma, title={Goud.ma: a News Article Dataset for Summarization in Moroccan Darija}, author={Abderrahmane Issam and Khalil Mrini}, booktitle={3rd Workshop on African Natural Language Processing}, year={2022}, url={https://openreview.net/forum?id=BMVq5MELb9} }
贡献
感谢 @issam9 和 @KhalilMrini 添加原始数据集 dataset



