five

SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles

收藏
Hugging Face2024-06-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles
下载链接
链接失效反馈
官方服务:
资源简介:
我们发布了经过启发式过滤、手动处理和自动分类的埃及阿拉伯语维基百科文章数据集。该数据集用于开发一个基于网络的检测系统,以自动识别埃及阿拉伯语维基百科版中的模板翻译文章。该系统名为埃及阿拉伯语维基百科扫描器,并托管在Hugging Face Spaces上。数据集包含三个子集:Balanced、Unbalanced和Uncategorized,分别用于训练和测试。数据集的特征包括文章的总编辑次数、总编辑者、主要编辑者、总字节数、总字符数、总词数、创建者名称和创建日期等。数据集来源于埃及阿拉伯语维基百科版的完整转储,并使用Gensim库进行处理。

我们发布了经过启发式过滤、手动处理和自动分类的埃及阿拉伯语维基百科文章数据集。该数据集用于开发一个基于网络的检测系统,以自动识别埃及阿拉伯语维基百科版中的模板翻译文章。该系统名为埃及阿拉伯语维基百科扫描器,并托管在Hugging Face Spaces上。数据集包含三个子集:Balanced、Unbalanced和Uncategorized,分别用于训练和测试。数据集的特征包括文章的总编辑次数、总编辑者、主要编辑者、总字节数、总字符数、总词数、创建者名称和创建日期等。数据集来源于埃及阿拉伯语维基百科版的完整转储,并使用Gensim库进行处理。
提供机构:
SaiedAlshahrani
原始信息汇总

数据集概述

基本信息

  • 语言: 阿拉伯语 (ar)
  • 许可证: MIT
  • 大小: 100K<n<1M
  • 任务类别: 文本分类
  • 美观名称: Detect-Egyptian-Wikipedia-Articles

配置

  • 平衡配置

    • 数据文件:
      • 训练集: balanced/train-*
      • 测试集: balanced/test-*
    • 特征:
      • page_title (字符串)
      • creation_date (字符串)
      • creator_name (字符串)
      • total_edits (整数64位)
      • total_editors (整数64位)
      • top_editors (字符串)
      • bots_editors_percentage (浮点数64位)
      • humans_editors_percentage (浮点数64位)
      • total_bytes (整数64位)
      • total_chars (整数64位)
      • total_words (整数64位)
      • page_text (字符串)
      • label (字符串)
    • 分割:
      • 训练集: 16000个样本, 32565713字节
      • 测试集: 4000个样本, 8243228字节
    • 下载大小: 18217654字节
    • 数据集大小: 40808941字节
  • 不平衡配置

    • 数据文件:
      • 训练集: unbalanced/train-*
      • 测试集: unbalanced/test-*
    • 特征: 同上
    • 分割:
      • 训练集: 133120个样本, 132509046字节
      • 测试集: 33281个样本, 33292670字节
    • 下载大小: 59449711字节
    • 数据集大小: 165801716字节
  • 未分类配置

    • 数据文件:
      • 训练集: uncategorized/train-*
      • 测试集: uncategorized/test-*
    • 特征: 同上
    • 分割:
      • 训练集: 455411个样本, 607754601字节
      • 测试集: 113853个样本, 151613029字节
    • 下载大小: 141377798字节
    • 数据集大小: 759367630字节

数据集来源

  • 数据集提取自2024年1月1日下载的埃及阿拉伯语维基百科完整转储。

数据集特征

  • 使用Wikimedia XTools API收集的元数据,包括编辑总数、编辑者总数、顶级编辑者、总字节数、总字符数、总词数、创建者名称和创建日期。

数据集子集

  • 平衡: 20K样本,80:20训练测试分割
  • 不平衡: 166K样本,80:20训练测试分割
  • 未分类: 569K样本,80:20训练测试分割,使用XGBoost分类器自动分类

引用

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作