Persian-Wikipedia-Corpus

github2024-05-24 更新2024-05-31 收录

下载链接：

https://github.com/Text-Mining/Persian-Wikipedia-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个包含波斯语维基百科页面的完整副本，以纯文本（无wikitext标记）和JSON格式存储，包含1,160,676篇有用文章。数据格式为每行JSON，包含12个字段，如唯一ID、文章标题、实体类型等。

A complete replica of Persian Wikipedia pages, stored in plain text (without wikitext markup) and JSON format, containing 1,160,676 useful articles. The data format is JSON per line, including 12 fields such as unique ID, article title, entity type, etc.

创建时间：

2019-01-02

原始信息汇总

数据集概述

数据集名称

Persian-Wikipedia-Corpus

数据集描述

该数据集包含波斯维基百科页面的完整副本，以纯文本形式呈现（不包含维基文本标记），并嵌入JSON格式的元数据。数据集基于fawiki-20181001-dump，包含1,160,676篇有用文章。

数据格式

每个文件包含每行JSON格式数据。
每行（文章/记录）包含12个字段：
1. "Id": 唯一标识符（整数）
2. "Title": 文章（页面）标题
3. "Type": 实体类型（整数）
4. "Rank": 重要性排名（整数）
5. "Namespace": 维基百科命名空间
6. "RedirectList": 重定向到当前页面的文章列表
7. "IsDisambiguationPage": 指示文章是否为消歧页面
8. "TargetLinksCount": 链接到当前页面的文章数量
9. "InfoBox": 文章的维基信息框
10. "Text": 当前文章的规范化纯文本
11. "Links": 当前文章的内部链接列表
12. "Parents": 当前文章的维基类别链接列表

示例行

json { "Id":56, "Title":"سعدی", "Type":1, "Rank":1414, "Namespace":0, "RedirectList":[...], "IsDisambiguationPage":false, "TargetLinksCount":508, "InfoBox":{...}, "Text":"...", "Links":[...], "Parents":[...] }

该数据集适用于基于波斯维基百科构建的最新深度学习模型，提供丰富的文本和元数据信息，支持多种自然语言处理和数据挖掘任务。

搜集汇总

数据集介绍

构建方式

Persian-Wikipedia-Corpus 数据集的构建基于对波斯语维基百科的全面解析。该数据集从波斯语维基百科的标记语言中提取出纯文本内容，并将其与嵌入的元数据一同存储于JSON格式中。具体而言，数据集采用了2018年10月1日的维基百科转储文件，包含了1,160,676篇有用的文章。每篇文章被解析为一行JSON数据，包含12个字段，涵盖了文章的唯一标识符、标题、实体类型、重要性排名、维基百科命名空间、重定向列表、是否为消歧页面、目标链接数量、信息框内容、正文文本、内部链接列表以及所属维基百科分类等信息。

特点

Persian-Wikipedia-Corpus 数据集的显著特点在于其全面性和结构化。该数据集不仅包含了波斯语维基百科的纯文本内容，还嵌入了丰富的元数据，如实体类型、重要性排名、命名空间等，这些信息为深度学习模型提供了多维度的训练数据。此外，数据集的JSON格式使得数据易于解析和处理，适合用于自然语言处理和文本挖掘任务。数据集的规模和多样性也为其在波斯语文本分析和语言模型训练中的应用提供了坚实的基础。

使用方法

Persian-Wikipedia-Corpus 数据集适用于多种自然语言处理任务，包括但不限于文本分类、实体识别、关系抽取和语言模型训练。用户可以通过解析JSON格式的数据文件，提取所需的文本和元数据进行进一步分析。例如，可以利用该数据集训练波斯语的词嵌入模型，或者构建波斯语的命名实体识别系统。此外，数据集的结构化特性也使其适合用于构建知识图谱和进行语义分析。使用该数据集时，建议结合具体的任务需求，选择合适的字段和数据进行处理和分析。

背景与挑战

背景概述

Persian-Wikipedia-Corpus 数据集是由研究人员从波斯语维基百科的标记语言中解析并转换为 JSON 格式的数据集。该数据集包含了波斯语维基百科页面的完整副本，以纯文本形式呈现，并嵌入了元数据。数据集的当前版本基于 2018 年 10 月 1 日的维基百科转储，包含了 1,160,676 篇有用的文章。该数据集的创建旨在支持基于现代深度学习模型的研究，特别是在自然语言处理领域，为研究人员提供了丰富的文本数据资源。

当前挑战

Persian-Wikipedia-Corpus 数据集在构建过程中面临多个挑战。首先，解析和转换维基百科的标记语言为结构化的 JSON 格式需要复杂的处理技术。其次，数据集的规模庞大，包含超过百万篇文章，这要求高效的存储和处理能力。此外，数据集中包含多种类型的实体和丰富的元数据，如何有效地提取和利用这些信息是一个重要的研究问题。最后，数据集的更新和维护也是一个持续的挑战，确保数据集的时效性和准确性对于后续研究至关重要。

常用场景

经典使用场景

Persian-Wikipedia-Corpus数据集的经典应用场景主要集中在自然语言处理（NLP）领域，特别是在波斯语文本的预处理和深度学习模型的训练中。该数据集提供了丰富的波斯语维基百科文章，这些文章被解析为JSON格式，包含文本、元数据和结构化信息，如实体类型、重定向列表和内部链接。这些数据为波斯语的自然语言理解、信息抽取、文本分类和机器翻译等任务提供了宝贵的资源。

衍生相关工作

Persian-Wikipedia-Corpus数据集的发布催生了一系列相关研究和工作。许多研究者基于该数据集开发了新的波斯语自然语言处理模型，如BERT和GPT的波斯语变体。此外，该数据集还激发了对波斯语文本生成、情感分析和语义理解等领域的深入研究。学术界和工业界的合作也进一步推动了波斯语NLP技术的实际应用，如在社交媒体分析、新闻摘要和智能客服中的应用。

数据集最近研究