five

wikimedia-pageview-timeseries-raw

收藏
Hugging Face2026-04-20 更新2026-04-21 收录
下载链接:
https://huggingface.co/datasets/jeremycochoy/wikimedia-pageview-timeseries-raw
下载链接
链接失效反馈
官方服务:
资源简介:
Wikimedia页面浏览量时间序列数据集是一个完整的、未经抽样的时间序列数据集,包含所有维基媒体项目(如维基百科、维基词典、维基共享资源等)的页面浏览量数据。数据集以宽格式的parquet文件存储,每行代表一篇文章,每列代表一个时间戳。数据集包含多个子集,如固定时间窗口的周数据(`fixed/`)、训练用的连续小时窗口(`1024/`)、日窗口(`1024-daily/`)、周窗口(`1024-weekly/`)以及STL分解结果(`1024-stl/`)。数据规模庞大,总计约1.06TB,包含558个文件。数据集适用于时间序列预测任务,特别是需要原始、高分辨率数据的场景。数据来源于维基媒体的完整页面浏览量转储,经过多阶段处理流程生成,包括下载、解码、过滤和窗口切割等步骤。数据集采用CC0许可证,允许自由使用。
创建时间:
2026-04-19
原始信息汇总

Wikimedia Pageview Time Series (Full Raw Wide Format) 数据集概述

基本描述

  • 数据集名称: Wikimedia Pageview Time Series — full raw (wide format)
  • 数据集全称: Wikimedia Pageview Time Series (Full Raw Wide Format)
  • 许可证: CC0 1.0
  • 任务类别: 时间序列预测
  • 标签: 时间序列、wikimedia、pageviews、wikipedia、stl-decomposition、pretraining、raw
  • 数据规模: 大于 1TB

数据内容与结构

该数据集包含维基媒体所有项目(如维基百科、维基词典、维基共享资源等)的完整、未经采样的页面浏览量时间序列原始数据,以宽格式Parquet文件存储:每行代表一篇文章,每列代表一个时间戳。

数据文件夹详情

文件夹 文件数量 大小 每文件行数 列数 描述
fixed/ 442个.parquet文件 ~423 GB ~660万 170 每周Parquet文件,时间范围2016_W012024_W25。为流水线第二阶段输出。包含7×24=168个每小时数据列,外加indexkey列。
1024/ 42个.parquet文件 ~85 GB ~188万 1028 训练就绪的每小时数据窗口,每个窗口包含T=1025个连续小时(约42.7天)。覆盖2011-12-012016-10-02
1024-daily/ 1个.parquet文件 3.2 GB ~199万 1028 T=1025个每日数据窗口(每行约2.8年)。
1024-weekly/ 1个.parquet文件 598 MB ~199万 150 T=148个每周数据窗口(每行约2.8年),起始于2011-12-04
1024-stl/<window>/ 24个目录 × 3 = 72个.parquet文件 ~551 GB ~188万 1025 前24个1024/窗口的STL分解结果。每个目录包含trend.parquetseasonal.parquetresidual.parquet。覆盖2011-12-012014-08-19(最后18个窗口未分解)。

总计: 558个文件,约1.06 TB。

数据模式(宽格式)

fixed/*.parquet

类型 备注
index int64 数字文章ID(跨周稳定)
key string 处理后的文章ID:<sanitised_domain_title>_<8char_sha256>
168个日期时间列 float32 每小时浏览量。列名为ISO时间戳,例如2016-01-04 00:00:00

1024/*.parquet1024-daily/*.parquet

类型 备注
index int64
key string
1025个日期时间列 float32 每小时或每日浏览量
__index_level_0__ int64 Pandas索引产物(可删除)

1024-weekly/*.parquet 同上,但为148个日期时间列(每周聚合数据)而非1025个。

1024-stl/<window>/{trend,seasonal,residual}.parquet

类型 备注
index int64
1024个日期时间列 float32 每小时分解后的分量。注意:key,且时间戳比1024/少一个(STL会裁剪边界)。

数据来源与处理流程

数据通过开源项目rnd中的三阶段流水线生成:

  1. scripts/pageview_loader.py — 从dumps.wikimedia.org/other/pageview_complete/下载每小时.bz2文件,过滤爬虫和自动化流量。
  2. scripts/pageview_processor.py — 解码维基媒体字母编码的小时格式(A–X = 0–23时,后跟浏览量),过滤每日浏览量少于10次的页面,每周生成一个Parquet文件 — 产出**fixed/**。
  3. scripts/pageview_weekly_to_fixed.py — 拼接连续的周数据,切割为固定长度窗口 — 产出**1024/**(以及通过修改T和分辨率产出的1024-daily/ / 1024-weekly/)。

STL分解由同一仓库中scripts/stl_decomp/下的独立Rust阶段完成。

数据时间线

步骤 时间
原始.bz2转储文件下载 2024年(后为节省磁盘空间删除)
每周Parquet文件(fixed/)生成 2024-05-20 → 2024-07-05
1024/1024-daily/1024-weekly/生成 2024-06 → 2024-07
1024-stl/分解(前24个窗口) 2024-06
上传至本HF仓库 2026-04

已知数据缺口

  • STL分解覆盖至2014-08-19结束 — 最后18个1024/窗口(至2016-10-02)未分解。如需可运行scripts/stl_decomp/重新生成。
  • fixed/仅覆盖2016-W01至2024-W25。更早的周数据在流水线重新运行时被覆盖;1024/窗口中2011年至2016年的数据来自早期快照,该快照已不存在于fixed/中。要完全重新生成这些1024/窗口,需要重新下载2016年之前的转储文件。

使用说明

加载原始宽格式Parquet文件

python import pyarrow.parquet as pq import numpy as np

table = pq.read_table("1024/2011-12-01.parquet") df = table.to_pandas()

每行文章对应1025个float32值的时间窗口

values = df.iloc[:, 2:-1].values # 删除indexkey__index_level_0__ keys = df["key"].values print(values.shape, values.dtype) # (1877644, 1025) float32

通过huggingface_hub流式下载

python from huggingface_hub import snapshot_download snapshot_download( repo_id="jeremycochoy/wikimedia-pageview-timeseries-raw", repo_type="dataset", local_dir="./wiki-raw", allow_patterns=["1024/*.parquet"], # 按需选择文件 )

转换为HF长格式

配套仓库jeremycochoy/wikimedia-pageview-timeseries以长格式存储相同数据(series: list[float32, 1025]source_id: uint8meta: string)。转换代码位于stage1_extract_wiki.py中的_extract_series_matrix函数。

引用

若使用此数据,请引用维基媒体:

@misc{wikimedia_pageview_complete, author = {{Wikimedia Foundation}}, title = {Pageview complete dumps}, year = {2024}, howpublished = {url{https://dumps.wikimedia.org/other/pageview_complete/}}, }

维护者: jeremy@redstone.ee 问题反馈: 可在此仓库发起讨论或在jeremycochoy/rnd提交问题。

搜集汇总
数据集介绍
main_image_url
构建方式
在数字人文与网络行为分析领域,大规模时间序列数据集的构建需兼顾完整性与可处理性。本数据集源自维基媒体基金会公开的完整页面浏览记录,通过一个开源的三阶段流水线系统生成。初始阶段从官方存储库下载每小时压缩文件,并过滤爬虫与自动化流量。随后,处理器解码维基媒体特有的字母编码格式,剔除日浏览量低于10次的页面,并按ISO周生成原始宽格式Parquet文件。最终,通过拼接连续周数据并切割为固定长度窗口,形成了适用于模型训练的结构化序列。
特点
该数据集以其原始、未采样的完整性著称,涵盖了维基媒体旗下所有项目的每小时页面浏览记录,总规模超过1TB。其核心特征在于宽格式存储结构,每行对应一篇文章,每列代表一个时间戳,便于进行矩阵化操作与分析。数据集提供了多时间分辨率版本,包括每小时、每日及每周聚合窗口,并包含部分序列的STL分解成分,为研究时间序列的长期趋势、季节性与残差波动提供了直接支持。数据的时间跨度从2011年延伸至2024年,为观察数字知识消费的长期演变提供了珍贵素材。
使用方法
研究者可通过PyArrow或Pandas直接加载Parquet文件,获取以浮点数矩阵形式存储的浏览序列,并利用文章标识符进行元数据关联。对于大规模访问,推荐使用Hugging Face Hub的流式下载功能,按需获取特定时间窗口的文件。若需符合常见机器学习库输入格式的长结构数据,可参考配套仓库提供的转换脚本,将宽格式数据重塑为包含序列、来源标识与元信息的标准格式。该数据集适用于时间序列预测、异常检测、流量模式分解等任务,并为预训练大规模序列模型提供了丰富的原始信号。
背景与挑战
背景概述
Wikimedia页面浏览时间序列数据集由研究人员Jeremy Cochoy于2024年构建并发布,旨在提供维基媒体旗下所有项目(如维基百科、维基词典等)的完整、未经采样的页面浏览时序数据。该数据集源于对互联网用户行为模式与信息消费动态的深入研究需求,核心研究问题聚焦于如何利用大规模、细粒度的浏览记录来揭示文化趋势、突发事件影响以及知识传播的时空规律。其覆盖了自2011年至2024年的每小时浏览数据,以原始宽格式存储,为时间序列预测、异常检测及预训练模型开发提供了关键资源,显著推动了数字人文、计算社会科学及机器学习领域的实证分析进展。
当前挑战
该数据集致力于解决时间序列预测与模式识别中的核心挑战,包括处理高维度、非平稳性以及多重季节性(如日、周、年周期)的复杂信号。构建过程中面临多重技术难题:原始数据规模庞大(超过1TB),需高效处理与存储;数据清洗需过滤自动化流量以保留真实用户行为;时序对齐与窗口切割要求精确的时间一致性;而STL分解仅部分覆盖,遗留了数据完整性的缺口。此外,历史数据的不可再生性(如2016年前周度快照的丢失)进一步增加了数据重建与验证的复杂性。
常用场景
经典使用场景
在时间序列分析领域,Wikimedia页面浏览时间序列数据集为研究者提供了大规模、细粒度的网络流量观测数据。该数据集最经典的使用场景在于时间序列预测模型的训练与评估,特别是针对长序列预测任务。研究者可利用其每小时或每周的页面浏览计数,构建并验证各类预测算法,从传统的统计模型到现代的深度学习架构,均在数据上展现出性能差异。数据覆盖多年跨度的特性,使得模型能够学习到季节性、趋势性以及突发事件引起的波动模式,为预测准确性提供了坚实基础。
解决学术问题
该数据集有效解决了时间序列分析中的多个核心学术问题,包括高维长序列的表示学习、缺失值处理以及多尺度分解的挑战。通过提供原始且完整的浏览记录,它支持对时间序列的平稳性、自相关性和异方差性进行深入探究。其意义在于为大规模时间序列预测建立了可重复的基准,推动了预测精度与计算效率的平衡研究。影响层面,数据集促进了跨学科融合,使计算机科学、统计学与社会学能够共同挖掘人类在线行为的动态规律。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在时间序列预训练与分解算法上。例如,研究者利用其STL分解结果开发了鲁棒的季节性调整模型,提升了预测的稳定性;同时,以数据为基础的大规模预训练框架,如时间序列Transformer,通过迁移学习显著改善了小样本场景下的预测性能。这些工作不仅推动了方法论的创新,也为后续多模态时间序列分析提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作