five

BDas/ArabicNLPDataset

收藏
Hugging Face2022-09-26 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BDas/ArabicNLPDataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为ArabicNLPDataset,主要用于文本分类任务,包括多类分类和多标签分类。数据集的语言为阿拉伯语,数据来源于电子商务网站的用户评论。数据集包含10,000个验证样本、10,000个测试样本和80,000个训练样本,数据被分为三类:正面(positive)、负面(negative)和中性(natural)。数据集的下载文件大小为23.5 MB,生成的数据集大小也为23.5 MB。数据字段包括text(文本)和label(标签),标签的可能值为正面(2)、中性(1)和负面(0)。
提供机构:
BDas
原始信息汇总

数据集概述

数据集基本信息

  • 名称: ArabicNLPDataset
  • 语言: 阿拉伯语 (ar)
  • 许可证: 其他
  • 多语言性: 单语种
  • 大小: 100K<n<1M
  • 来源: 原始数据
  • 任务类别: 文本分类
  • 任务ID: 多类分类, 多标签分类

数据集描述

  • 摘要: 该数据集由电子商务网站的用户评论编译而成,包含10,000条验证数据、10,000条测试数据和80,000条训练数据。数据被分类为三个类别:正面(pos)、负面(neg)和自然(nor)。
  • 数据结构:
    • 数据实例: 数据集包含训练、验证和测试三个部分。
    • 数据字段:
      • text: 字符串类型,文本内容。
      • label: 分类标签,可能的值包括positive(2), natural(1), negative(0)。
    • 数据分割:
      train validation test
      Data 80000 10000 10000

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 专家生成
  • 源数据: 原始数据
  • 注释: 未提供详细信息
  • 个人和敏感信息: 未提供详细信息

使用数据集的考虑

  • 社会影响: 未提供详细信息
  • 偏见讨论: 未提供详细信息
  • 其他已知限制: 未提供详细信息

附加信息

  • 数据集管理员: 未提供详细信息
  • 许可证信息: 未提供详细信息
  • 引用信息: 未提供详细信息
  • 贡献者: 感谢@PnrSvc添加此数据集。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作