WikiLinks

github2024-03-12 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/wiki-links

下载链接

链接失效反馈

官方服务：

资源简介：

WikiLinks数据集包含满足以下两个条件的网页：a. 包含至少一个指向维基百科的超链接；b. 该超链接的锚文本与目标维基百科页面的标题紧密匹配。每个维基百科页面代表一个实体（或概念或想法），锚文本作为实体的提及。数据集通过遍历Google的网页索引获得，包含约1100万文档、300万实体和4000万提及。数据集分为109个文本文件，每个文件详细记录了URL、提及和标记等信息。

The WikiLinks dataset comprises web pages that meet the following two criteria: a. They contain at least one hyperlink to Wikipedia; b. The anchor text of the hyperlink closely matches the title of the target Wikipedia page. Each Wikipedia page represents an entity (or concept or idea), with the anchor text serving as a mention of the entity. The dataset was obtained by traversing Google's web index and includes approximately 11 million documents, 3 million entities, and 40 million mentions. The dataset is divided into 109 text files, each detailing information such as URLs, mentions, and tags.

创建时间：

2015-12-15

原始信息汇总

数据集概述

数据集名称

WikiLinks

数据集内容

包含至少一个指向Wikipedia的超链接的网页。
超链接的锚文本与目标Wikipedia页面的标题紧密匹配。
每个Wikipedia页面代表一个实体（或概念或想法），锚文本作为实体的提及。

数据集格式

数据集分为109个文本文件。
每个文件格式包括：
- URL：网页的URL。
- MENTION：提及的实体，包括提及字符串、字节偏移和目标URL。
- TOKEN：页面上的最少10个不频繁令牌，包括令牌字符串和字节偏移。

数据集统计

文档数量：1100万
实体数量：300万
提及数量：4000万

数据集使用许可

遵循Creative Commons Attribution 3.0 Unported (CC BY 3.0)许可。
允许复制、分发、传输和改编，以及商业使用。
必须按照作者或许可方指定的方式归因。

数据集创建者

Amar Subramanya (asubram@google.com)
Sameer Singh (sameer@cs.umass.edu)
Fernando Pereira (pereira@google.com)
Andrew McCallum (mccallum@cs.umass.edu)
Dave Orr (dmorr@google.com)

注意事项

数据集自动从网络创建，可能包含一定程度的噪声。

搜集汇总

数据集介绍

构建方式

WikiLinks数据集的构建基于对Google网页索引的迭代处理，筛选出包含至少一个指向Wikipedia的超链接且锚文本与目标Wikipedia页面标题高度匹配的网页。每个Wikipedia页面被视为一个实体，锚文本则作为该实体的提及。数据集通过自动化方式从网页中提取，包含URL、提及字符串、字节偏移量及目标URL等信息，并以文本文件形式存储，共分为109个文件。

特点

WikiLinks数据集规模庞大，包含1100万份文档、300万个实体以及4000万次提及。每份文档以URL标识，提及信息包括提及字符串、字节偏移量和目标URL，同时提供页面中10个最不常见词汇的指纹信息，用于验证页面内容是否发生变化。数据集以文本文件形式存储，文件格式清晰，便于解析和处理。尽管数据集通过自动化方式构建，可能存在一定噪声，但其丰富的信息量和结构化格式为实体链接和自然语言处理研究提供了宝贵资源。

使用方法

使用WikiLinks数据集时，首先需下载并解压包含109个文本文件的压缩包。每个文件以URL标识网页，提及信息以MENTION标签标注，包含提及字符串、字节偏移量和目标URL。TOKEN标签则提供页面中10个最不常见词汇的指纹信息，用于验证页面内容是否发生变化。用户可通过解析这些文件，提取提及与实体的对应关系，进行实体链接、信息抽取等任务。使用过程中需注意数据集的噪声问题，并结合技术报告中的方法进行数据清洗和验证。

背景与挑战

背景概述

WikiLinks数据集由Google与马萨诸塞大学的研究团队于2012年共同构建，旨在通过分析网页中的超链接及其锚文本，捕捉实体在互联网中的提及情况。该数据集的核心研究问题在于如何从海量网页数据中提取与维基百科页面相关的实体提及，并建立实体与提及之间的映射关系。通过迭代Google的网页索引，研究人员成功构建了一个包含1100万文档、300万实体和4000万提及的庞大语料库。这一数据集为自然语言处理领域中的实体链接、实体识别等任务提供了重要的数据支持，推动了相关技术的发展。

当前挑战

WikiLinks数据集在构建过程中面临多重挑战。首先，从网页中提取与维基百科相关的实体提及需要处理海量数据，且网页内容可能随时间变化，导致数据一致性问题。其次，锚文本与目标维基百科页面标题的匹配需要高精度的算法支持，以确保提及与实体的准确映射。此外，由于数据集是通过自动化方式从互联网中提取，不可避免地引入了噪声数据，这对后续的数据清洗和预处理提出了更高要求。在应用层面，如何利用该数据集进行高效的实体链接和实体识别，仍需要解决语义歧义、实体消歧等技术难题。

常用场景

经典使用场景

WikiLinks数据集在自然语言处理领域中被广泛用于实体链接和命名实体识别任务。通过分析网页中的超链接及其锚文本，研究者能够构建大规模的实体提及与目标维基百科页面之间的映射关系。这种映射关系为训练和评估实体链接算法提供了丰富的语料库，尤其是在处理多义性和模糊性实体时，WikiLinks数据集展现了其独特的价值。

衍生相关工作

基于WikiLinks数据集，研究者们开发了多种经典的实体链接和命名实体识别模型。例如，一些工作利用该数据集训练了基于深度学习的实体链接系统，显著提升了链接的准确性和效率。此外，该数据集还被用于评估和改进跨语言实体链接技术，推动了多语言信息处理领域的发展。这些衍生工作不仅丰富了实体链接的研究方法，也为相关领域的实际应用提供了有力支持。

数据集最近研究