Japanese-Wikipedia Wikification Corpus

github2022-12-16 更新2024-05-31 收录

下载链接：

https://github.com/wikiwikification/jawikicorpus

下载链接

链接失效反馈

官方服务：

资源简介：

一个特定于Wikification的Wikipedia标记语料库，用于创建机器学习模型，该模型用于将普通文本中的术语链接到相应的Wikipedia实体。数据集包含多个文件，如entities.tsv和articles.txt，详细记录了文本中的术语及其对应的Wikipedia实体。

A Wikipedia annotation corpus specifically designed for Wikification, aimed at creating machine learning models that link terms in plain text to their corresponding Wikipedia entities. The dataset comprises multiple files, such as entities.tsv and articles.txt, which meticulously document the terms in the text along with their associated Wikipedia entities.

创建时间：

2018-03-26

原始信息汇总

数据集概述

名称: Japanese-Wikipedia Wikification Corpus
目的: 用于创建机器学习模型，实现文本中术语与相应维基百科实体的链接（Wikification）。

数据集下载

存储位置: Dropbox
链接: Dropbox链接
文件列表:
- 文件名: jawikicorpus.yyyyMMdd.tar.xz
- 维基百科转储日期: 2018年各月份
- md5校验和: 各文件对应不同的md5值

数据集内容

解压命令: tar xvJf jawikicorpus.yyyyMMdd.tar.xz
文件类型:
- entities.tsv: 包含文本中出现的术语及其对应的维基百科实体。实体选择规则包括排除“消歧页面”类别和无对应维基百科文章的实体。
- articles.txt: 去除所有标记语言，仅保留文章链接的维基百科文章主体。每行对应一篇维基百科文章，链接格式为[[Wikipedia entity|displayed text]]。
- LICENSE.md: 关于数据集的许可文档。

搜集汇总

数据集介绍

构建方式

Japanese-Wikipedia Wikification Corpus的构建基于特定时间点的维基百科数据转储，通过提取和整理维基百科文章中的实体及其对应的链接信息，生成了适用于Wikification任务的标注语料库。数据集的构建过程中，首先从维基百科的实体列表和重定向页面中提取术语，并筛选出适合Wikification标注的实体。筛选规则排除了属于“消歧页面”类别的实体以及没有对应维基百科文章的实体。最终生成的语料库包含两个主要文件：entities.tsv和articles.txt，分别记录了术语与维基百科实体的对应关系以及去除标记后的维基百科文章内容。

特点

该数据集的特点在于其专注于日文维基百科的Wikification任务，提供了丰富的术语与维基百科实体之间的对应关系。数据集中的术语来源于维基百科的实体列表和重定向页面，确保了术语的广泛覆盖和准确性。此外，articles.txt文件中的维基百科文章内容经过去标记处理，仅保留了适合Wikification标注的链接信息，便于机器学习模型直接使用。数据集的时间跨度覆盖了2018年5月至11月的多个时间点，为研究不同时间段维基百科内容的变化提供了可能。

使用方法

使用该数据集时，用户需首先从Dropbox下载压缩文件，并通过tar命令解压缩。解压后，用户将获得entities.tsv和articles.txt两个主要文件。entities.tsv文件可用于构建术语与维基百科实体的映射关系，而articles.txt文件则提供了去标记后的维基百科文章内容，可直接用于训练Wikification模型。用户可以根据需要选择不同时间点的数据文件，以研究时间对Wikification任务的影响。此外，数据集的使用需遵循LICENSE.md文件中的许可条款，确保合法合规。

背景与挑战

背景概述

Japanese-Wikipedia Wikification Corpus 是一个专门为日语维基百科设计的标注语料库，旨在支持维基化（Wikification）任务，即将文本中的术语链接到相应的维基百科实体。该数据集由多个时间点的维基百科数据快照组成，最早可追溯至2018年5月。其主要研究人员或机构未在README中明确提及，但该数据集的核心研究问题聚焦于如何通过机器学习模型实现高效的术语链接。这一任务在自然语言处理领域具有重要意义，尤其是在信息抽取、知识图谱构建以及语义理解等方向。该数据集的发布为日语维基化研究提供了重要的资源支持，推动了相关领域的技术进步。

当前挑战

Japanese-Wikipedia Wikification Corpus 面临的挑战主要体现在两个方面。首先，维基化任务本身具有较高的复杂性，尤其是在处理多义词、歧义实体以及跨语言链接时，模型需要具备强大的语义理解能力。其次，数据集的构建过程中也面临诸多技术难题，例如如何从海量维基百科数据中筛选出适合标注的实体，并确保标注的一致性和准确性。此外，由于维基百科内容不断更新，数据集的时效性和覆盖范围也需要持续维护和扩展，这对数据集的长期可用性提出了挑战。

常用场景

经典使用场景

Japanese-Wikipedia Wikification Corpus 主要用于构建和训练机器学习模型，以实现文本中的术语与维基百科实体之间的自动链接。这一过程在自然语言处理领域被称为Wikification，广泛应用于信息提取、知识图谱构建和语义分析等任务中。通过该数据集，研究人员能够开发出高效的算法，自动识别文本中的关键术语并将其与维基百科中的相关条目关联起来。

解决学术问题

该数据集解决了自然语言处理领域中一个关键问题：如何自动将非结构化文本中的术语与知识库中的实体进行精确匹配。Wikification 技术的核心在于准确识别文本中的实体，并将其链接到相应的知识库条目。通过提供大量经过标注的日文维基百科数据，该数据集为研究人员提供了丰富的训练资源，显著提升了实体链接的准确性和效率，推动了语义理解技术的发展。

衍生相关工作

基于 Japanese-Wikipedia Wikification Corpus，许多经典的研究工作得以展开。例如，研究人员开发了多种基于深度学习的Wikification模型，如基于注意力机制的实体链接算法和基于图神经网络的语义匹配模型。这些工作不仅提升了Wikification的准确性，还为其他自然语言处理任务提供了新的思路。此外，该数据集还催生了一系列跨语言Wikification研究，推动了多语言知识库的构建与应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集