abuelkhair-corpus/arabic_billion_words

Name: abuelkhair-corpus/arabic_billion_words
Creator: abuelkhair-corpus
Published: 2024-01-18 11:01:47
License: 暂无描述

Hugging Face2024-01-18 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/abuelkhair-corpus/arabic_billion_words

下载链接

链接失效反馈

官方服务：

资源简介：

Abu El-Khair语料库是一个阿拉伯语文本语料库，包含超过五百万篇新闻文章，总字数超过十亿，其中包含约三百万个独特词汇。语料库使用两种编码（UTF-8和Windows CP-1256）和两种标记语言（SGML和XML）进行编码。数据集主要用于文本生成和掩码语言建模任务。

The Abu El-Khair Corpus is an Arabic text corpus consisting of over five million news articles, with a total word count exceeding one billion and approximately three million unique vocabulary items. The corpus supports two encoding standards (UTF-8 and Windows CP-1256) and two markup languages (SGML and XML). This dataset is primarily intended for text generation and masked language modeling tasks.

提供机构：

abuelkhair-corpus

原始信息汇总

数据集卡片：阿拉伯十亿字语料库

数据集描述

数据集摘要

Abu El-Khair 语料库是一个包含超过五百万篇新闻文章的阿拉伯语文本语料库。它总共包含超过十亿五千万个单词，其中约有300万个独特的单词。该语料库采用两种编码方式：UTF-8和Windows CP-1256，并使用两种标记语言：SGML和XML进行标记。

支持的任务和排行榜

[更多信息需补充]

语言

阿拉伯语

数据集结构

数据实例

以下是 "Almasryalyoum" 配置子集的一个示例：

python { "url": "http://today.almasryalyoum.com/printerfriendly.aspx?ArticleID=61300", "head_line": "رئيس وزراء المجر: عنصرية جماهير أوجبيست جلبت العار للبلاد", "date": "19/5/2007", "text": """قال متحدث باسم الحكومة المجرية: إن رئيس الوزراء فيرنك جيوركساني رحب بقرار اتحاد كرة القدم المجري بخصم ثلاث نقاط من نادي أوجبيست بسبب السلوك العنصري الذي صدر من جماهيره. وعاقب الاتحاد المجري فريق أوجبيست بعد أن سخرت جماهيره من إبراهيم سيديبي مهاجم فريق ديبرينسين الأسود أثناء مباراة الفريقين أوائل مايو الجاري. يذكر أن الاتحاد فرض أيضا غرامة مالية قدرها 20 ألف دولار علي أوجبيست في عام 2005 بعد أن رددت جماهيره شعارات معادية للسامية خلال مباراة بالدوري المجري. وأوضح جيوركساني في خطاب إلي إيستفان كيستليكي رئيس الاتحاد المجري لكرة القدم، أن هذا السلوك العنصري من الجماهير «جلب العار لكرة القدم وللمجر». يذكر أن المجر بها مجموعة من مشجعي كرة القدم المشاغبين «الهوليجانز»، وشارك الكثير منهم في أعمال شغب معادية للحكومة في العام الماضي.""" }

数据字段

数据字段包括：

"url": 字符串，文章的原始URL
"head_line": 字符串，文章的标题
"date": 字符串，文章的日期
"text": 字符串，文章的文本内容

数据分割

所有配置子集只有一个 "训练" 分割，包含以下数量的示例：

	示例数量
Alittihad	349342
Almasryalyoum	291723
Almustaqbal	446873
Alqabas	817274
Echoroukonline	139732
Ryiadh	858188
Sabanews	92149
SaudiYoum	888068
Techreen	314597
Youm7	1172136

数据集创建

策划理由

[更多信息需补充]

源数据

初始数据收集和规范化

[更多信息需补充]

源语言生产者是谁？

[更多信息需补充]

注释

注释过程

[更多信息需补充]

注释者是谁？

[更多信息需补充]

个人和敏感信息

[更多信息需补充]

使用数据的注意事项

数据集的社会影响

[更多信息需补充]

偏见的讨论

[更多信息需补充]

其他已知限制

[更多信息需补充]

附加信息

数据集策展人

[更多信息需补充]

许可信息

[更多信息需补充]

引用信息

@article{el20161, title={1.5 billion words arabic corpus}, author={El-Khair, Ibrahim Abu}, journal={arXiv preprint arXiv:1611.04033}, year={2016} }

贡献

感谢 @zaidalyafeai 和 @albertvillanova 添加此数据集。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于从多个阿拉伯语新闻网站收集的大量文章。具体而言，数据集包含了来自不同新闻出版物的文章，涵盖了从政治到体育等多个主题。这些文章通过网络爬虫技术获取，并经过初步的清洗和格式化处理，以确保数据的一致性和可用性。数据集的构建过程中，特别注重了文本的编码和标记语言的标准化，采用了UTF-8和Windows CP-1256两种编码方式，以及SGML和XML两种标记语言，从而为后续的自然语言处理任务提供了坚实的基础。

特点

阿拉伯语十亿字数据集以其庞大的规模和多样性著称。该数据集包含了超过五百万篇文章，总计超过十亿个单词，其中包含了约三百万个独特的词汇。这种大规模的数据使得该数据集在语言建模和文本生成等任务中具有极高的价值。此外，数据集的多样性不仅体现在文章的主题上，还体现在来源的广泛性上，涵盖了多个阿拉伯语国家的新闻出版物，从而能够反映出不同地区的语言使用习惯和文化背景。

使用方法

该数据集主要用于支持阿拉伯语的自然语言处理任务，如语言建模和掩码语言建模。用户可以通过加载数据集中的不同配置子集来获取特定新闻出版物的文章数据。每个数据实例包含文章的URL、标题、日期和正文内容，这些字段为研究人员提供了丰富的信息来源。数据集的单一训练分割设计使得用户可以方便地进行大规模的训练和验证。此外，数据集的编码和标记语言标准化处理，使得用户在处理和分析数据时能够更加高效和准确。

背景与挑战

背景概述

阿布·埃尔-凯尔语料库（Abu El-Khair Corpus）是一个包含超过五百万篇阿拉伯语报纸文章的大型文本语料库，总词汇量超过十亿五千万，其中约有三百万个独特词汇。该语料库由伊布拉欣·阿布·埃尔-凯尔（Ibrahim Abu El-Khair）创建，旨在为阿拉伯语的自然语言处理研究提供丰富的资源。语料库的编码格式包括UTF-8和Windows CP-1256，并使用SGML和XML进行标记。这一语料库的创建填补了阿拉伯语领域在大型文本数据集方面的空白，为语言模型、文本生成和掩码语言建模等任务提供了宝贵的数据支持。

当前挑战

尽管阿布·埃尔-凯尔语料库为阿拉伯语自然语言处理提供了丰富的资源，但其构建过程中仍面临诸多挑战。首先，数据来源的多样性和复杂性增加了数据清洗和标准化的难度。其次，阿拉伯语的语法和词汇结构的复杂性使得文本预处理和特征提取任务变得尤为复杂。此外，语料库中包含的敏感信息和个人数据需要严格的管理和保护措施，以确保数据使用的合规性和道德性。最后，由于语料库的规模庞大，如何高效地存储、检索和处理这些数据也是一个重要的技术挑战。

常用场景

经典使用场景

在自然语言处理领域，阿拉伯语的文本生成和掩码语言建模是该数据集的经典应用场景。通过利用Abu El-Khair Corpus中的海量阿拉伯语文本，研究人员能够训练出高性能的语言模型，从而实现自动文本生成、机器翻译以及情感分析等任务。这些模型不仅提升了阿拉伯语处理的技术水平，也为跨文化交流提供了新的工具。

实际应用

在实际应用中，该数据集被广泛用于开发阿拉伯语的智能助手、内容推荐系统和新闻摘要生成工具。例如，新闻机构可以利用训练好的模型自动生成新闻摘要，提高信息传播的效率。此外，该数据集还支持开发面向阿拉伯语用户的智能客服系统，提升用户体验和服务质量。

衍生相关工作

基于Abu El-Khair Corpus，许多研究工作得以展开，其中包括阿拉伯语的预训练语言模型（如AraBERT）和跨语言模型（如mBERT）。这些模型在多个自然语言处理任务中表现出色，推动了阿拉伯语处理技术的进步。此外，该数据集还激发了关于多语言数据集构建和语言资源共享的研究，促进了全球语言资源的均衡发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集