SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles

Name: SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles
Creator: SaiedAlshahrani
Published: 2024-06-04 13:37:56
License: 暂无描述

Hugging Face2024-06-04 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles

下载链接

链接失效反馈

官方服务：

资源简介：

我们发布了经过启发式过滤、手动处理和自动分类的埃及阿拉伯语维基百科文章数据集。该数据集用于开发一个基于网络的检测系统，以自动识别埃及阿拉伯语维基百科版中的模板翻译文章。该系统名为埃及阿拉伯语维基百科扫描器，并托管在Hugging Face Spaces上。数据集包含三个子集：Balanced、Unbalanced和Uncategorized，分别用于训练和测试。数据集的特征包括文章的总编辑次数、总编辑者、主要编辑者、总字节数、总字符数、总词数、创建者名称和创建日期等。数据集来源于埃及阿拉伯语维基百科版的完整转储，并使用Gensim库进行处理。

提供机构：

SaiedAlshahrani

原始信息汇总

数据集概述

基本信息

语言: 阿拉伯语 (ar)
许可证: MIT
大小: 100K<n<1M
任务类别: 文本分类
美观名称: Detect-Egyptian-Wikipedia-Articles

配置

平衡配置
- 数据文件:
  - 训练集: balanced/train-*
  - 测试集: balanced/test-*
- 特征:
  - page_title (字符串)
  - creation_date (字符串)
  - creator_name (字符串)
  - total_edits (整数64位)
  - total_editors (整数64位)
  - top_editors (字符串)
  - bots_editors_percentage (浮点数64位)
  - humans_editors_percentage (浮点数64位)
  - total_bytes (整数64位)
  - total_chars (整数64位)
  - total_words (整数64位)
  - page_text (字符串)
  - label (字符串)
- 分割:
  - 训练集: 16000个样本, 32565713字节
  - 测试集: 4000个样本, 8243228字节
- 下载大小: 18217654字节
- 数据集大小: 40808941字节
不平衡配置
- 数据文件:
  - 训练集: unbalanced/train-*
  - 测试集: unbalanced/test-*
- 特征: 同上
- 分割:
  - 训练集: 133120个样本, 132509046字节
  - 测试集: 33281个样本, 33292670字节
- 下载大小: 59449711字节
- 数据集大小: 165801716字节
未分类配置
- 数据文件:
  - 训练集: uncategorized/train-*
  - 测试集: uncategorized/test-*
- 特征: 同上
- 分割:
  - 训练集: 455411个样本, 607754601字节
  - 测试集: 113853个样本, 151613029字节
- 下载大小: 141377798字节
- 数据集大小: 759367630字节

数据集来源

数据集提取自2024年1月1日下载的埃及阿拉伯语维基百科完整转储。

数据集特征

使用Wikimedia XTools API收集的元数据，包括编辑总数、编辑者总数、顶级编辑者、总字节数、总字符数、总词数、创建者名称和创建日期。

数据集子集

平衡: 20K样本，80:20训练测试分割
不平衡: 166K样本，80:20训练测试分割
未分类: 569K样本，80:20训练测试分割，使用XGBoost分类器自动分类

引用

Saied Alshahrani, Hesham Haroon, Ali Elfilali, Mariama Njie, and Jeanna Matthews. 2024. Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition. In Proceedings of the 6th Workshop on Open-Source Arabic Corpora and Processing Tools (OSACT) with Shared Tasks on Arabic LLMs Hallucination and Dialect to MSA Machine Translation @ LREC-COLING 2024, pages 31–45, Torino, Italia. ELRA and ICCL.

5,000+

优质数据集

54 个

任务类型

进入经典数据集