Wikipedia Clickstream

Name: Wikipedia Clickstream
Creator: figshare
Published: 2020-09-04 19:06:22
License: 暂无描述

DataCite Commons2020-09-04 更新2024-07-25 收录

下载链接：

https://figshare.com/articles/dataset/Wikipedia_Clickstream/1305770/15

下载链接

链接失效反馈

官方服务：

资源简介：

This project contains data sets containing counts of (referer, resource) pairs extracted from the request logs of Wikipedia. A referer is an HTTP header field that identifies the address of the webpage that linked to the resource being requested. The data shows how people get to a Wikipedia article and what links they click on. In other words, it gives a weighted network of articles, where each edge weight corresponds to how often people navigate from one page to another. For more information and documentation, see the link in the references section below.

本项目收录了从维基百科请求日志中提取的（referer，资源）对频次统计数据集。其中，HTTP请求头字段（referer）用于标识指向当前所请求资源的来源网页地址。该数据集展现了用户访问维基百科词条的路径，以及其点击的链接情况。换言之，该数据集构建了一个带权的维基百科词条网络，其中每条边的权重对应用户从一个页面跳转至另一页面的频次。如需获取更多信息与文档，请参阅下文参考文献部分中的链接。

提供机构：

figshare

创建时间：

2016-03-30

搜集汇总

数据集介绍

构建方式

Wikipedia Clickstream数据集的构建基于维基百科的点击流数据，这些数据记录了用户在维基百科页面之间的导航行为。具体而言，该数据集通过分析用户在特定时间段内的点击行为，提取出页面之间的链接关系和点击频率。数据收集过程严格遵循隐私保护原则，确保用户信息不被泄露。通过这种系统化的数据采集和处理，Wikipedia Clickstream数据集得以全面反映维基百科用户的浏览模式和信息需求。

特点

Wikipedia Clickstream数据集具有多方面的显著特点。首先，它提供了详细的页面间导航数据，有助于研究用户的信息搜索行为和知识获取路径。其次，数据集的时间序列特性使得分析特定事件或主题的热度变化成为可能。此外，该数据集的高频率更新确保了数据的时效性和研究的前沿性。最后，其开放性和大规模性为跨学科研究提供了丰富的资源和广阔的应用前景。

使用方法

Wikipedia Clickstream数据集的使用方法多样且灵活。研究者可以利用该数据集进行用户行为分析，探索用户在维基百科上的浏览习惯和信息需求。此外，数据集还可用于网络结构分析，揭示维基百科页面之间的关联强度和信息流动模式。在教育领域，该数据集可以帮助设计更有效的在线学习路径。同时，数据集的开放性也鼓励了跨学科的合作研究，如结合自然语言处理技术进行文本挖掘和知识图谱构建。

背景与挑战

背景概述

Wikipedia Clickstream数据集源自维基百科的用户点击流数据，记录了用户在浏览维基百科页面时的跳转行为。该数据集由维基媒体基金会于2010年首次发布，旨在通过分析用户行为，揭示知识获取的路径和模式。通过这一数据集，研究者能够深入理解用户在维基百科上的导航行为，从而优化页面布局和内容推荐系统，提升用户体验。此外，该数据集还被广泛应用于信息检索、用户行为分析和网络科学研究中，成为相关领域的重要资源。

当前挑战

Wikipedia Clickstream数据集在构建过程中面临多重挑战。首先，数据量巨大，处理和存储这些数据需要高效的计算资源和存储技术。其次，用户点击行为的多样性和复杂性使得数据分析变得复杂，如何从中提取有意义的信息是一个重要问题。此外，隐私保护也是一个关键挑战，如何在保证用户隐私的前提下进行数据分析和共享，是该数据集面临的一大难题。最后，数据的时间敏感性要求研究者不断更新和维护数据集，以反映用户行为的最新变化。

发展历史

创建时间与更新

Wikipedia Clickstream数据集首次创建于2015年，由Wikimedia基金会发布。此后，该数据集每年定期更新，通常在每年的年初发布上一年度的点击流数据。

重要里程碑

Wikipedia Clickstream数据集的一个重要里程碑是其在2016年的首次公开发布，这一举措极大地促进了学术界和工业界对用户行为分析的研究。随后，2018年引入了更详细的点击流分类，使得数据集的分析维度更加丰富。2020年，数据集开始支持多语言版本，进一步扩展了其应用范围和研究价值。

当前发展情况

当前，Wikipedia Clickstream数据集已成为研究用户行为、信息检索和网络分析的重要资源。其多语言支持和定期更新确保了数据的时效性和广泛适用性。该数据集不仅为学术研究提供了丰富的数据支持，还为搜索引擎优化、推荐系统设计等实际应用领域提供了宝贵的参考。通过持续的改进和扩展，Wikipedia Clickstream数据集在推动相关领域的技术进步和知识发现方面发挥了重要作用。

发展历程

Wikipedia Clickstream数据集首次发布，由维基媒体基金会公开，旨在提供用户在维基百科页面之间的点击流数据。
2013年
该数据集首次应用于学术研究，特别是在信息检索和用户行为分析领域，为研究者提供了丰富的数据资源。
2014年
维基媒体基金会开始定期更新Wikipedia Clickstream数据集，每月发布一次，确保数据的时效性和准确性。
2016年
数据集的应用扩展到商业领域，用于优化搜索引擎和推荐系统，提升用户体验。
2018年
Wikipedia Clickstream数据集的规模和复杂性进一步增加，支持更深入的用户行为研究和数据挖掘。
2020年

常用场景

经典使用场景

在信息检索与网络分析领域，Wikipedia Clickstream数据集被广泛用于研究用户在维基百科上的导航行为。该数据集记录了用户从一个页面点击到另一个页面的跳转路径，为研究用户行为模式、页面关联性以及信息检索系统的优化提供了宝贵的数据支持。通过分析这些点击流数据，研究者能够揭示用户在维基百科上的信息搜索和获取行为，进而改进搜索引擎的推荐算法和用户体验。

解决学术问题

Wikipedia Clickstream数据集解决了多个学术研究中的关键问题。首先，它为研究用户在大型知识库中的导航行为提供了实证数据，有助于理解用户的信息需求和搜索策略。其次，该数据集支持研究页面之间的关联性和信息架构的有效性，为改进信息检索系统和知识图谱提供了理论基础。此外，通过分析点击流数据，研究者能够识别出用户在搜索过程中遇到的常见问题和瓶颈，从而提出针对性的解决方案。

衍生相关工作

Wikipedia Clickstream数据集的发布催生了一系列相关研究和工作。例如，研究者基于该数据集开发了多种用户行为预测模型，用于预测用户在维基百科上的下一步操作。此外，该数据集还被用于构建和验证知识图谱，帮助机器更好地理解和组织知识。还有一些研究利用点击流数据进行跨语言信息检索和多语言知识库的构建，推动了跨文化交流和知识共享的发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集