Wikipedia Citations

Name: Wikipedia Citations
Creator: 数据科学实验室, 洛桑联邦理工学院; 逻辑、语言和计算研究所, 阿姆斯特丹大学
Published: 2020-11-23 19:13:46
License: 暂无描述

arXiv2020-11-23 更新2024-06-21 收录

下载链接：

https://doi.org/10.5281/zenodo.3940692

下载链接

链接失效反馈

官方服务：

资源简介：

Wikipedia Citations数据集是由数据科学实验室和逻辑、语言和计算研究所合作创建的，包含了从2020年5月提取的610万篇英文维基百科文章中的2930万条引用。该数据集特别关注带有标识符的学术出版物引用，如DOI、PMC、PMID和ISBN，并进一步从Crossref获取了额外的261,000条DOIs。数据集的应用领域包括科学知识传播、学术影响力评估和维基百科内容质量的提升。

The Wikipedia Citations Dataset was co-developed by the Data Science Lab and the Institute for Logic, Language and Computation. It contains 29.3 million citations extracted from 6.1 million English Wikipedia articles collected in May 2020. This dataset specifically targets citations to academic publications with standard identifiers such as DOI, PMC, PMID and ISBN, and further obtained an additional 261,000 DOIs from Crossref. Its application domains include scientific knowledge dissemination, academic impact assessment and the enhancement of Wikipedia content quality.

提供机构：

数据科学实验室, 洛桑联邦理工学院; 逻辑、语言和计算研究所, 阿姆斯特丹大学

创建时间：

2020-07-14

搜集汇总

数据集介绍

构建方式

在数字学术资源日益丰富的背景下，Wikipedia Citations 数据集的构建体现了对维基百科引文结构深入解析的追求。该数据集通过处理2020年5月的英文维基百科XML转储文件，利用mwparserfromhell解析器提取了6,069,685个页面中的29.3百万条引文。随后，借助wikiciteparser将多样化的引文模板统一映射为包含29个键值的标准格式，确保了数据的一致性。在此基础上，研究团队训练了一个混合深度学习分类器，通过特征工程（如引文文本、上下文语句、词性标签等）将引文自动分类为期刊文章、书籍或网络内容，并利用Crossref API为期刊文章引文补充了DOI标识符，最终形成了包含标识符的综合性引文数据集。

使用方法

该数据集为多学科研究提供了丰富的数据资源，其使用方法主要围绕学术分析与应用开发展开。研究人员可通过Zenodo平台获取数据集，利用其结构化格式（如CSV或JSON）进行批量处理，以探究维基百科的引文模式、学科知识映射或学术影响力评估。例如，结合Web of Science分类数据，可分析维基百科引文的学科偏向性；利用引文标识符，可实现与外部学术数据库（如Crossref、PubMed）的关联，拓展引文网络分析。此外，数据集附带的开源代码库支持用户复现和更新引文提取流程，适应维基百科的动态变化。在实践应用中，该数据还可用于引文推荐系统、知识图谱增强或学术传播策略研究，推动开放科学的发展。

背景与挑战

背景概述

在数字时代的知识传播体系中，维基百科作为全球最大的开放式在线百科全书，其内容的可靠性与可验证性始终是学术界的关注焦点。2020年，由瑞士洛桑联邦理工学院与阿姆斯特丹大学的研究团队联合创建的Wikipedia Citations数据集应运而生，旨在系统性地提取并分析英文维基百科中引用的文献资源。该数据集基于2020年5月的维基百科数据快照，涵盖了610万篇文章中的2930万条引用，通过自动化流程识别出包含DOI、ISBN等持久标识符的学术出版物。其核心研究问题聚焦于揭示维基百科所依赖的知识来源构成，评估其引用的科学文献覆盖范围，并为研究学术传播、知识可信度及跨平台信息流提供数据基础。这一工作不仅深化了对维基百科知识构建机制的理解，也为科学计量学、信息检索与数字人文研究开辟了新的实证路径。

当前挑战

Wikipedia Citations数据集所应对的领域挑战，在于解决维基百科引用来源的透明化与量化分析难题。维基百科虽奉行可验证性原则，但其引用实践存在异构性：编辑者使用的引用模板多样，且大量引用缺乏稳定标识符，导致传统基于标识符的计量方法（如Altmetrics）难以全面捕捉其知识来源。构建过程中的技术挑战尤为显著：首先，需设计统一的模板映射机制以处理维基百科中纷繁复杂的引用格式；其次，面对海量无标识符引用，需开发混合深度学习模型对书籍、期刊与网络内容进行精准分类；最后，通过Crossref API为期刊文献补全DOI时，需在查询效率与标识符匹配精度间取得平衡。这些挑战共同指向一个更深层的问题：如何在动态演变的开放知识平台中，构建可持续更新且机器可读的引用网络图谱。

常用场景

经典使用场景

在数字图书馆与科学计量学领域，Wikipedia Citations 数据集为探索维基百科引文结构提供了关键资源。该数据集通过提取并标准化英文维基百科中的 2930 万条引文，并辅以文献标识符（如 DOI、ISBN 等），使得研究者能够系统分析维基百科所依赖的学术与非学术来源。其经典应用场景包括绘制维基百科的知识来源图谱，揭示不同学科领域在维基百科中的呈现程度与覆盖偏差，从而评估这一全球性知识库的可靠性与代表性。

解决学术问题

该数据集有效解决了长期以来关于维基百科引文来源不透明与难以量化的问题。通过提供大规模、结构化的引文数据，研究者能够精确分析维基百科对学术文献的引用模式，例如仅约 2% 的 Web of Science 收录文章被维基百科引用，且引文集中分布于生物医学与多学科科学领域。这为科学传播、知识扩散以及替代计量学（altmetrics）研究提供了实证基础，深化了我们对公众科学参与和学术影响力跨平台传播机制的理解。

实际应用

在实际应用中，Wikipedia Citations 数据集支撑了多项知识工程与信息检索任务。例如，它可用于改进维基百科的引文推荐系统，自动识别并补充缺失的参考文献；亦可用于增强知识图谱（如 Wikidata）的实体链接与来源验证。此外，媒体与教育机构可借助该数据集评估特定主题条目的来源质量，而科研评价体系则可将其作为衡量学术成果社会影响力的补充指标。

数据集最近研究