five

WikiLinkGraphs

收藏
arXiv2019-04-04 更新2024-06-21 收录
下载链接:
https://zenodo.org/record/2539424
下载链接
链接失效反馈
官方服务:
资源简介:
WikiLinkGraphs数据集包含了9个最大语言版本的Wikipedia内部链接网络的完整数据,涵盖了从2001年Wikipedia创建至2018年3月1日的17年时间。该数据集通过解析每个文章的修订版本,追踪并保留了编辑有意添加的链接,排除了由模板自动生成的链接,从而提供了一个更准确反映概念间关系的网络。数据集不仅包括年度快照,还提供了每个链接的完整历史记录,支持对网络演化的深入研究。WikiLinkGraphs数据集适用于多种研究领域,如自然语言处理、人工智能、语义网络技术等,为研究者提供了丰富的资源来探索和理解Wikipedia内部的知识结构和链接动态。

The WikiLinkGraphs dataset contains complete data on the internal link networks of the nine most prevalent language editions of Wikipedia, spanning a 17-year period from Wikipedia's launch in 2001 to March 1, 2018. By parsing every revision of each Wikipedia article, this dataset tracks and retains links deliberately added by human editors, while excluding automatically generated links from templates, thereby yielding a network that more accurately reflects the relational connections between concepts. Besides annual snapshots of the network, the dataset also provides full historical records for every individual link, supporting in-depth investigations into the evolution of the Wikipedia internal link network. The WikiLinkGraphs dataset is applicable to a wide range of research domains, including Natural Language Processing (NLP), Artificial Intelligence (AI), Semantic Web technologies, and more, providing researchers with abundant resources to explore and comprehend the internal knowledge structure and link dynamics of Wikipedia.
提供机构:
特伦托大学DISI和加泰罗尼亚技术中心Eurecat
创建时间:
2019-02-12
搜集汇总
数据集介绍
main_image_url
构建方式
在知识图谱与复杂网络研究领域,构建精确且具有时间维度的链接网络数据集至关重要。WikiLinkGraphs的构建过程基于对维基百科九个最大语言版本完整修订历史数据的高精度解析。研究团队从维基媒体基金会获取了截至2018年3月1日的全量XML数据转储,覆盖了自2001年维基百科创立以来长达17年的历史记录。通过开发专门的Python解析工具,系统逐条处理了超过10亿条文章修订版本,运用正则表达式精准提取文章正文中编辑者手动添加的维基链接,同时排除了由导航模板自动生成的链接。针对重定向页面的处理,算法根据时间戳动态解析链接指向的最终目标文章,并保留了重定向页面作为独立节点。最终生成的年度快照数据集通过消除同一文章内的重复链接,构建出反映编辑者真实语义意图的纯净网络结构。
特点
该数据集的核心特征体现在其多维度的学术价值维度。其纵向时间跨度覆盖了维基百科发展的完整生命周期,提供了从2001年至2018年共18个年度网络快照,为研究知识网络的演化规律提供了珍贵的时间序列数据。在数据质量层面,通过严格过滤模板生成的自动化链接,数据集仅保留编辑者主动添加的语义链接,使得网络结构更能反映人类认知关联,相比原始数据减少了超过50%的噪声链接。多语言覆盖方面,数据集囊括了德语、英语、西班牙语、法语、意大利语、荷兰语、波兰语、俄语和瑞典语九大语言版本,为跨文化比较研究提供了坚实基础。技术实现上,数据集完整保留了链接的元数据信息,包括修订时间戳、用户类型、章节位置等,并提供了原始链接数据、重定向解析数据等多层次衍生数据集,形成了完整的数据生态系统。
使用方法
研究者在利用该数据集时可从多个维度展开学术探索。在复杂网络分析领域,可通过计算网络拓扑指标、社区发现算法或PageRank等中心性度量,探究知识网络的结构演化规律与跨文化差异。时间序列分析方面,可利用年度快照数据构建动态网络模型,研究链接增删的动力学机制,或开发链接预测与异常检测算法。跨文化比较研究中,可对比不同语言版本中相同概念的网络位置与关联模式,揭示文化认知差异对知识组织的影响。在应用层面,数据集可支持语义网技术开发、知识图谱补全、争议话题映射等研究方向。数据获取可通过Zenodo平台使用DOI 10.5281/zenodo.2539424,配套处理代码已在GitHub开源,支持研究者扩展其他语言版本或更高时间分辨率的数据生成。
背景与挑战
背景概述
WikiLinkGraphs数据集由特伦托大学和加泰罗尼亚技术中心的Cristian Consonni、David Laniado及Alberto Montresor于2019年共同创建,旨在提供维基百科内部链接网络的完整、纵向及多语言视角。该数据集聚焦于维基百科九大语言版本,涵盖2001年至2018年间的年度快照,核心研究问题在于揭示编辑者有意添加的链接所构成的概念网络演化规律,摒弃了由模板自动生成的链接噪声。这一工作为复杂网络分析、语义关联研究及跨文化知识图谱构建提供了高质量基础,推动了信息科学领域对大规模协作知识体系动态性的深入理解。
当前挑战
WikiLinkGraphs数据集致力于解决维基百科链接网络分析中的语义纯净度与动态演化追踪问题,其核心挑战在于区分编辑者有意添加的链接与模板自动生成的链接,以构建更精确的概念关联网络。在构建过程中,研究团队面临多重技术难题:需解析海量维基文本修订历史以提取链接,处理跨语言的重定向页面解析,并设计高效算法以消除重复链接与追踪时间戳变化。此外,数据规模的庞大性——涉及超过10亿次修订与40万篇文章——对计算资源与存储管理提出了严峻考验。
常用场景
经典使用场景
在复杂网络与知识图谱研究领域,WikiLinkGraphs数据集为学者提供了探索大规模协作知识构建动态演化的珍贵窗口。该数据集通过解析维基百科九大语言版本的文章修订历史,剔除了由模板自动生成的链接,仅保留编辑者有意添加的文本内链,从而构建出更纯净、更具语义意图的概念关联网络。其经典应用场景包括分析知识网络的结构演化规律,例如研究节点度分布、聚类系数及社区形成过程,揭示人类集体智慧如何通过链接行为塑造跨语言的知识体系。
解决学术问题
该数据集有效解决了以往基于维基百科全量链接数据的研究中因模板链接干扰导致的网络结构失真问题。通过提供长达17年的纵向多语言链接快照,它支持对知识网络动态性、链接预测与消失机制、以及跨文化知识表征差异的深入探究。其意义在于为复杂网络演化理论、语义关联挖掘及数字人文研究提供了高质量、可复现的基准数据,推动了关于在线协作知识构建机制的理论创新与方法验证。
衍生相关工作
围绕该数据集已衍生出多项经典研究工作,包括基于其动态链接数据预测网络结构变化的图流分析算法、利用跨语言链接一致性改进知识库补全的语义映射模型,以及探究争议性话题在不同维基百科版本中关联结构的文化比较研究。这些工作不仅深化了对协作知识网络演化机制的理解,也为自然语言处理、推荐系统及计算社会科学提供了新的方法论启示与实证基础。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作