BDas/ArabicNLPDataset
收藏Hugging Face2022-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BDas/ArabicNLPDataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为ArabicNLPDataset,主要用于文本分类任务,包括多类分类和多标签分类。数据集的语言为阿拉伯语,数据来源于电子商务网站的用户评论。数据集包含10,000个验证样本、10,000个测试样本和80,000个训练样本,数据被分为三类:正面(positive)、负面(negative)和中性(natural)。数据集的下载文件大小为23.5 MB,生成的数据集大小也为23.5 MB。数据字段包括text(文本)和label(标签),标签的可能值为正面(2)、中性(1)和负面(0)。
提供机构:
BDas
原始信息汇总
数据集概述
数据集基本信息
- 名称: ArabicNLPDataset
- 语言: 阿拉伯语 (ar)
- 许可证: 其他
- 多语言性: 单语种
- 大小: 100K<n<1M
- 来源: 原始数据
- 任务类别: 文本分类
- 任务ID: 多类分类, 多标签分类
数据集描述
- 摘要: 该数据集由电子商务网站的用户评论编译而成,包含10,000条验证数据、10,000条测试数据和80,000条训练数据。数据被分类为三个类别:正面(pos)、负面(neg)和自然(nor)。
- 数据结构:
- 数据实例: 数据集包含训练、验证和测试三个部分。
- 数据字段:
text: 字符串类型,文本内容。label: 分类标签,可能的值包括positive(2),natural(1),negative(0)。
- 数据分割:
train validation test Data 80000 10000 10000
数据集创建
- 注释创建者: 专家生成
- 语言创建者: 专家生成
- 源数据: 原始数据
- 注释: 未提供详细信息
- 个人和敏感信息: 未提供详细信息
使用数据集的考虑
- 社会影响: 未提供详细信息
- 偏见讨论: 未提供详细信息
- 其他已知限制: 未提供详细信息
附加信息
- 数据集管理员: 未提供详细信息
- 许可证信息: 未提供详细信息
- 引用信息: 未提供详细信息
- 贡献者: 感谢@PnrSvc添加此数据集。



