english-wikipedia-pageviews-by-second

Hugging Face2025-05-28 更新2025-05-29 收录

下载链接：

https://huggingface.co/datasets/wikimedia-community/english-wikipedia-pageviews-by-second

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了从2015年3月16日到2015年4月25日的英语维基百科页面浏览量计数，按每秒分辨率进行分组，并区分移动端和桌面端。数据集由Os Keyes创建，并可在datahub.io上找到。

创建时间：

2025-05-23

原始信息汇总

数据集概述：English Wikipedia pageviews by second

基本信息

名称：English Wikipedia pageviews by second
许可证：cc0-1.0
作者：Os Keyes (ironholds@gmail.com)
创建日期：2015年4月27日 (UTC+02:00)
最后更新日期：2020年6月10日 (UTC+02:00)
主页：https://old.datahub.io/dataset/english-wikipedia-pageviews-by-second

数据集内容

时间范围：2015-03-16T00:00:00 至 2015-04-25T15:59:59
数据粒度：按秒分组
数据来源：英文维基百科页面浏览量
分组维度：
- 时间戳（timestamp[s]）
- 访问设备（mobile或desktop）

数据特征

特征列：
- timestamp：时间戳（秒级精度）
- site：访问设备类型（字符串）
- requests：请求数量（int64）

数据集统计

训练集：
- 样本数量：7,200,000
- 数据大小：190,800,000字节
下载大小：89,443,256字节
数据集总大小：190,800,000字节

其他信息

最小事件数：每组至少包含645个事件
隐私说明：由于每组事件数较多，无隐私泄露风险
标签：logs, hci, wikipedia
规模分类：1M<n<10M

搜集汇总

数据集介绍

构建方式

在数字行为分析领域，该数据集通过聚合2015年3月16日至4月25日期间英语维基百科的实时访问日志构建而成。数据以秒级时间戳为粒度，精确记录每秒钟内移动端与桌面端的页面请求数量，最小事件组包含645次访问，确保了用户隐私的匿名性。这种基于原始服务器日志的统计方法，既保留了高频时间序列的细节特征，又通过分组聚合规避了敏感信息泄露风险。

特点

作为网络流量监测的典型样本，该数据集凸显出高精度时间序列与多平台对比的双重特性。其时间分辨率达到秒级，覆盖超过720万条记录，真实反映了维基百科用户访问的波动规律。数据字段简洁明确，仅包含时间戳、平台类型和请求量三列，便于进行流量峰值检测、平台使用偏好等纵向分析。这种结构化设计为研究人类信息获取行为的时空模式提供了标准化数据基础。

使用方法

针对网络计量学研究需求，该数据集可通过HuggingFace平台直接加载，其时间戳格式支持与各类时序分析库无缝对接。研究者可运用滑动窗口技术提取分钟级或小时级的流量特征，亦可对比移动端与桌面端的访问规律差异。在数据预处理阶段，建议结合时间序列分解方法分离长期趋势与瞬时波动，从而更精准地识别异常访问事件或周期性用户行为模式。

背景与挑战

背景概述

随着互联网技术的飞速发展，大规模用户行为数据的采集与分析成为信息科学领域的重要研究方向。English Wikipedia Pageviews by Second数据集由研究员Os Keyes于2015年4月发布，旨在记录英语维基百科在2015年3月16日至4月25日期间每秒级别的页面访问量，并按移动端与桌面端进行细分。该数据集通过高精度时间戳与访问量统计，为网络流量模式分析、人机交互研究以及实时系统负载预测提供了关键数据支撑，推动了数字行为生态系统的量化研究进程。

当前挑战

该数据集核心挑战在于如何从海量实时访问日志中提取具有统计意义的用户行为模式，同时需解决高并发场景下数据采集的时序一致性问题。构建过程中面临的主要困难包括：原始日志数据的去标识化处理需平衡数据效用与隐私保护，每秒粒度下的数据稀疏性可能导致统计偏差，以及异构设备（移动端/桌面端）访问特征的分离与整合。这些挑战要求数据构建者设计高效的流式处理算法，并建立可靠的数据质量验证机制。

常用场景

经典使用场景

在互联网流量分析领域，English Wikipedia pageviews by second数据集以其高时间分辨率特性，成为研究网络用户行为模式的经典资源。该数据集记录了2015年3月至4月间英语维基百科每秒级别的页面访问量，区分移动端和桌面端来源，为分析用户访问规律、峰值流量事件提供了精细的时间序列数据支撑。研究人员常利用其探索节假日、突发事件对网络流量的影响，揭示用户群体在不同时段的活动特征。

解决学术问题

该数据集有效解决了网络计量学中关于用户行为时序建模的学术挑战。通过提供秒级精度的访问日志，学者能够精确量化信息扩散速度、用户注意力波动等动态过程。其高粒度数据支持对网络拥堵预测、服务稳定性优化等关键问题的实证研究，推动了人机交互领域对大规模用户行为量化分析方法的革新，为构建更精准的流量预测模型奠定了数据基础。

衍生相关工作

该数据集催生了多项关于网络流量异常检测的经典研究。例如有学者基于其开发了基于机器学习的DDoS攻击早期预警系统，通过识别秒级流量中的异常波动提升网络安全防护能力。另有研究结合该数据与社交媒体趋势数据，构建了跨平台信息传播动力学模型，深化了对网络热点事件演化规律的理解。这些衍生工作显著拓展了高粒度网络日志数据的学术价值。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集