five

scholarly-article-citations-in-wikipedia

收藏
Hugging Face2025-05-28 更新2025-05-29 收录
下载链接:
https://huggingface.co/datasets/wikimedia-community/scholarly-article-citations-in-wikipedia
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了来自2015年英文维基百科版本的学术论文引用列表。数据集以(Wikipedia文章, 学术文章)的对形式呈现每个引用,并包括了引用首次添加时的元数据。数据集特征包括页面ID、页面标题、修订ID、时间戳、标识符类型和引用学术文章的ID。数据集分为训练集,并且引用标识符的解析成功率达到98%。
创建时间:
2025-05-27
搜集汇总
数据集介绍
main_image_url
构建方式
在学术文献计量研究领域,该数据集通过系统化提取2015年英文维基百科版本中的学术引用信息构建而成。其核心方法是从维基百科文章内容中直接识别并捕获标准化文献标识符,包括PubMed标识符、PubMedCentral标识符及数字对象标识符。每条数据记录以维基百科文章与学术文献的引用对形式呈现,并整合了引用首次被添加时的修订版本元数据与时间戳,确保了数据来源的可追溯性。
特点
该数据集的主要特征在于其高度结构化的引用关系表示,每条记录明确关联维基百科条目与对应的学术文献标识。数据覆盖了超过184万条引用实例,具备丰富的元数据字段,如页面标识、修订版本号及精确的时间戳。特别值得注意的是,数据集中的标识符解析成功率经抽样验证达到98%,为研究维基百科中科学知识的传播与引用动态提供了可靠基础。
使用方法
研究人员可利用该数据集进行学术影响力分析与知识扩散研究,通过解析维基百科文章与学术文献间的引用网络,探索科学知识在公共领域中的传播路径。典型应用包括追踪特定学科领域文献的维基百科引用演变,或结合时间戳分析科学事件对公共知识构建的影响。使用时应通过页面标识符或文献标识符进行数据筛选,并注意结合原始维基百科修订历史以获取更完整的上下文信息。
背景与挑战
背景概述
在数字学术传播日益重要的背景下,维基百科作为全球最大的开放知识库,其引用的学术文献成为衡量科学影响力的新兴指标。2015年,维基媒体基金会的Aaron Halfaker等研究人员构建了“维基百科中学术文章引用”数据集,旨在通过提取PubMed、DOI等标准化标识符,系统追踪科学文献在公共知识平台中的传播路径。该数据集覆盖184万条引用记录,为替代计量学和科学社会学研究提供了关键数据基础,推动了学术影响力评估从传统引文分析向多元社会影响的范式转变。
当前挑战
该数据集核心挑战在于解决非传统学术平台中科学文献引用追踪的复杂性:维基百科的动态编辑特性导致引用关系需要跨版本溯源,而异构标识符(如PMID、DOI)的解析准确率需达到98%以上才能保证数据可靠性。构建过程中,团队面临从维基百科原始标记语言提取结构化引用的技术难题,包括处理标识符格式变异、区分有效引用与无效元数据,以及维护大规模数据提取管道的计算效率。
常用场景
经典使用场景
在数字图书馆与科学计量学领域,该数据集被广泛应用于分析维基百科中学术文献的引用模式。研究者通过挖掘海量条目与学术标识符的关联,能够系统评估科学知识在公众平台中的传播路径与影响力分布,为开放科学运动提供数据支撑。
衍生相关工作
基于此数据集衍生的经典研究包括Halfaker等人开发的跨语言引文追踪系统,以及后续学者构建的维基百科科学影响力指数模型,这些工作深化了网络科学计量方法论,并催生了多平台学术传播对比分析的新研究方向。
数据集最近研究
最新研究方向
在学术影响力评估领域,维基百科作为全球最大的开放知识库,其引用的学术文献数据正成为替代计量学研究的焦点。基于Scholarly Article Citations in Wikipedia数据集,学者们正探索跨平台知识传播模式,分析高被引论文如何通过维基百科实现公众科学素养提升。当前研究热点集中在利用机器学习技术挖掘引文时序特征,揭示科学成果从专业领域向大众媒介扩散的动力学规律。这类研究不仅为科研评价体系提供了多维度的观测指标,更促进了开放科学运动背景下学术交流生态系统的重构。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作