WikiReddit
收藏arXiv2025-02-07 更新2025-02-11 收录
下载链接:
https://doi.org/10.5281/zenodo.14653265
下载链接
链接失效反馈官方服务:
资源简介:
WikiReddit数据集是由英国埃克塞特大学和美国北卡罗来纳大学教堂山分校的研究人员创建的,包含了从2020年到2023年在Reddit上分享的所有 Wikipedia链接(不包括私人及不适宜工作的subreddits)。数据集通过Reddit4Researchers API和Wikipedia API收集,每个链接的Wikipedia文章都包含了修订历史、页面浏览数据、文章ID、重定向和Wikidata标识符等信息。该数据集旨在研究不同在线平台之间信息和注意力的流动,以及这些平台上的公共讨论如何反映和塑造公共话语。
The WikiReddit dataset was created by researchers from the University of Exeter in the United Kingdom and the University of North Carolina at Chapel Hill in the United States. It includes all Wikipedia links shared on Reddit between 2020 and 2023, excluding private and NSFW (Not Safe For Work) subreddits. The dataset was collected through the Reddit4Researchers API and the Wikipedia API. For each linked Wikipedia article, metadata including revision history, page view data, article ID, redirects, and Wikidata identifiers is provided. This dataset is designed to study the flow of information and attention across various online platforms, as well as how public discussions on these platforms reflect and shape public discourse.
提供机构:
英国埃克塞特大学,美国北卡罗来纳大学教堂山分校
创建时间:
2025-02-07
搜集汇总
数据集介绍

构建方式
WikiReddit数据集通过从Reddit4Researchers和Wikipedia API中收集数据构建而成。该数据集涵盖了2020年至2023年期间在Reddit上发布的所有提及维基百科的帖子、评论以及相关元数据。每个提及的维基百科文章都被丰富化了,包括修订历史、页面浏览量数据、文章ID、重定向和Wikidata标识符。数据集的构建采用了Python包WikiToolkit,确保了数据收集的快速性和可靠性。
特点
WikiReddit数据集的特点包括其全面性、多语言性和跨平台性。数据集包含了336,000个帖子、10,200,000条评论、1,950,000个唯一链接和1,260,000篇文章,跨越了Reddit上的59种语言和276个维基百科语言子域。此外,数据集还包含了从Reddit帖子和评论中提取的匿名元数据,为分析跨平台信息流、集体注意力动态以及维基百科在网络话语中的作用提供了丰富的资源。
使用方法
使用WikiReddit数据集的方法包括对Reddit和维基百科之间信息流动的长期分析、对维基百科知识库在社会网络中使用的分析、对外部注意力如何按主题分布在维基百科上的研究,以及维基百科在Reddit上的使用对社会利益和危害的贡献的分析。数据集以SQLite3格式提供,并包含复制和演示代码,方便研究人员进行数据收集和分析。数据集的CC BY-SA 4.0许可证保证了数据的可重用性。
背景与挑战
背景概述
WikiReddit数据集的创建旨在解决现代网络中信息流和注意力流跨平台传播的复杂性。该数据集由Patrick Gildersleve等研究人员于2020年至2023年间,通过研究协议从Reddit上收集了所有分享的Wikipedia链接,并排除了私人及NSFW子版块的链接。每个链接的Wikipedia文章都丰富了修订历史、页面浏览量数据、文章ID、重定向和Wikidata标识符。该数据集的创建为研究人员提供了研究信息如何在平台间流动的基础,并揭示了社交媒体话语和协作知识消费与生产之间的相互作用。
当前挑战
WikiReddit数据集面临的主要挑战包括:1)平台间的数据隔离和语言障碍限制了研究者对信息如何在全球网络中传播和演变的理解;2)Reddit数据的获取变得更加困难,因为数据通常被API、付费墙或其他限制所隔离。此外,数据集的开发过程中遇到了如何确保用户隐私、同时提供查询和ID机制以与Reddit和Wikipedia API集成的挑战。
常用场景
经典使用场景
在现代社会中,信息的流动和注意力分配是一个复杂且动态的过程,它不仅反映了公共话语的构建,也塑造了我们对世界的理解。为了深入探讨这一现象,研究者们常常需要跨越不同平台和社区,追踪信息如何在互联网上传播和演变。然而,由于平台数据的孤岛化和语言障碍,这一任务往往充满挑战。WikiReddit数据集应运而生,它是一个全面的多语言数据集,收录了从2020年到2023年间Reddit上所有提及维基百科的帖子及评论中的链接,并排除了私人及NSFW子版块的内容。该数据集不仅提供了丰富的链接历史、页面浏览数据、文章ID、重定向和维基数据标识符等信息,而且还确保了用户隐私,同时提供了一种查询和ID机制,可以与Reddit和维基百科的API集成。这使得研究者能够进行扩展分析,以探究信息如何在平台间流动。例如,Reddit上的讨论经常使用维基百科作为参考和事实核查的工具,这反过来又影响了维基百科的内容,通过增加文章流量或激发编辑活动。
解决学术问题
WikiReddit数据集为研究信息如何在社交媒体平台和维基百科之间流动提供了宝贵的资源。它解决了以往研究中存在的平台数据孤岛化和语言障碍问题,使得研究者能够更全面地分析信息的流动和演变过程。该数据集不仅收录了Reddit上的所有维基百科链接,还提供了这些链接的丰富信息,包括历史版本、页面浏览数据等,这为研究者提供了更深入的洞察。此外,WikiReddit数据集还解决了以往研究中存在的数据获取困难的问题,通过与Reddit的合作,它确保了数据的长期可用性和可持续性,为研究提供了坚实的基础。
衍生相关工作
WikiReddit数据集的发布对相关领域的研究产生了深远的影响,衍生出了一系列经典的工作。首先,它为研究信息如何在社交媒体平台和维基百科之间流动提供了新的视角和方法。例如,研究者可以利用WikiReddit数据集来分析Reddit上的讨论如何影响维基百科的内容,以及维基百科如何影响Reddit上的讨论。这有助于我们更好地理解信息如何在不同的平台之间传播和演变。其次,WikiReddit数据集还为研究社交媒体平台和维基百科之间的关系提供了新的证据和发现。例如,研究者可以利用WikiReddit数据集来分析Reddit上的维基百科链接如何影响维基百科的页面浏览量和编辑活动。这有助于我们更好地理解社交媒体平台和维基百科之间的相互影响和作用。最后,WikiReddit数据集还为研究不同语言和文化之间的信息流动和交流提供了新的资源和工具。例如,研究者可以利用WikiReddit数据集来分析不同语言版本的Reddit和维基百科之间的链接和引用关系,从而了解不同语言和文化背景下用户的信息获取和传播方式。这有助于我们更好地理解跨文化和跨语言的交流与合作。
以上内容由遇见数据集搜集并总结生成



