SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles
收藏Hugging Face2024-06-04 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/SaiedAlshahrani/Detect-Egyptian-Wikipedia-Articles
下载链接
链接失效反馈官方服务:
资源简介:
我们发布了经过启发式过滤、手动处理和自动分类的埃及阿拉伯语维基百科文章数据集。该数据集用于开发一个基于网络的检测系统,以自动识别埃及阿拉伯语维基百科版中的模板翻译文章。该系统名为埃及阿拉伯语维基百科扫描器,并托管在Hugging Face Spaces上。数据集包含三个子集:Balanced、Unbalanced和Uncategorized,分别用于训练和测试。数据集的特征包括文章的总编辑次数、总编辑者、主要编辑者、总字节数、总字符数、总词数、创建者名称和创建日期等。数据集来源于埃及阿拉伯语维基百科版的完整转储,并使用Gensim库进行处理。
我们发布了经过启发式过滤、手动处理和自动分类的埃及阿拉伯语维基百科文章数据集。该数据集用于开发一个基于网络的检测系统,以自动识别埃及阿拉伯语维基百科版中的模板翻译文章。该系统名为埃及阿拉伯语维基百科扫描器,并托管在Hugging Face Spaces上。数据集包含三个子集:Balanced、Unbalanced和Uncategorized,分别用于训练和测试。数据集的特征包括文章的总编辑次数、总编辑者、主要编辑者、总字节数、总字符数、总词数、创建者名称和创建日期等。数据集来源于埃及阿拉伯语维基百科版的完整转储,并使用Gensim库进行处理。
提供机构:
SaiedAlshahrani
原始信息汇总
数据集概述
基本信息
- 语言: 阿拉伯语 (ar)
- 许可证: MIT
- 大小: 100K<n<1M
- 任务类别: 文本分类
- 美观名称: Detect-Egyptian-Wikipedia-Articles
配置
-
平衡配置
- 数据文件:
- 训练集:
balanced/train-* - 测试集:
balanced/test-*
- 训练集:
- 特征:
page_title(字符串)creation_date(字符串)creator_name(字符串)total_edits(整数64位)total_editors(整数64位)top_editors(字符串)bots_editors_percentage(浮点数64位)humans_editors_percentage(浮点数64位)total_bytes(整数64位)total_chars(整数64位)total_words(整数64位)page_text(字符串)label(字符串)
- 分割:
- 训练集: 16000个样本, 32565713字节
- 测试集: 4000个样本, 8243228字节
- 下载大小: 18217654字节
- 数据集大小: 40808941字节
- 数据文件:
-
不平衡配置
- 数据文件:
- 训练集:
unbalanced/train-* - 测试集:
unbalanced/test-*
- 训练集:
- 特征: 同上
- 分割:
- 训练集: 133120个样本, 132509046字节
- 测试集: 33281个样本, 33292670字节
- 下载大小: 59449711字节
- 数据集大小: 165801716字节
- 数据文件:
-
未分类配置
- 数据文件:
- 训练集:
uncategorized/train-* - 测试集:
uncategorized/test-*
- 训练集:
- 特征: 同上
- 分割:
- 训练集: 455411个样本, 607754601字节
- 测试集: 113853个样本, 151613029字节
- 下载大小: 141377798字节
- 数据集大小: 759367630字节
- 数据文件:
数据集来源
- 数据集提取自2024年1月1日下载的埃及阿拉伯语维基百科完整转储。
数据集特征
- 使用Wikimedia XTools API收集的元数据,包括编辑总数、编辑者总数、顶级编辑者、总字节数、总字符数、总词数、创建者名称和创建日期。
数据集子集
- 平衡: 20K样本,80:20训练测试分割
- 不平衡: 166K样本,80:20训练测试分割
- 未分类: 569K样本,80:20训练测试分割,使用XGBoost分类器自动分类
引用
- Saied Alshahrani, Hesham Haroon, Ali Elfilali, Mariama Njie, and Jeanna Matthews. 2024. Leveraging Corpus Metadata to Detect Template-based Translation: An Exploratory Case Study of the Egyptian Arabic Wikipedia Edition. In Proceedings of the 6th Workshop on Open-Source Arabic Corpora and Processing Tools (OSACT) with Shared Tasks on Arabic LLMs Hallucination and Dialect to MSA Machine Translation @ LREC-COLING 2024, pages 31–45, Torino, Italia. ELRA and ICCL.



