five

EPI-Eval/wikipedia-pageviews

收藏
Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/EPI-Eval/wikipedia-pageviews
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个关于维基百科疾病相关文章每日浏览量的数据集。它是一个按文章划分的时间序列数据,我们手动挑选了一小批与呼吸道疾病和疫情监测主题相关的文章;扩展文章列表只需在数据摄取模块中修改一行代码。行级别的`topic`字段携带文章名称,`topic_type`为`article`——详见模式v0.1中的“主题分段来源”。数据集覆盖多种病原体,包括流感、SARS-CoV-2、呼吸道合胞病毒、猴痘、麻疹、登革热、结核病、埃博拉和百日咳,时间范围从2015年7月1日到2026年4月25日,地理覆盖全球,数据以每日频率更新,包含一个views列表示每日英文维基百科文章的页面浏览量(所有访问类型和所有代理)。该数据集主要用于疫情监测的搜索类别,可作为协变量使用,但需注意新闻驱动的流量峰值可能掩盖稳态兴趣,且信号与疫情关注度相关,但领先或滞后于真实病例曲线的程度不可预测。

Per-article time series. We hand-pick a small basket of articles correlated with respiratory + outbreak surveillance topics; extending the article list is a single line in the ingest module. Row-level `topic` carries the article name, `topic_type` is `article` — see schema v0.1 "Topic-segmented sources". This dataset covers daily English-Wikipedia pageviews for disease-related articles, including pathogens such as influenza, SARS-CoV-2, RSV, mpox, measles, dengue, tuberculosis, ebola, and pertussis. The time coverage is from 2015-07-01 to 2026-04-25, with a daily cadence and global geography. It includes a views column representing daily pageviews for the article (all access types, all agents). The dataset is intended for surveillance in the search category, serving as a covariate but with caveats: news-driven spikes may drown out steady-state interest, and the signal correlates with outbreak attention but lags/leads true case curves unpredictably.
提供机构:
EPI-Eval
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作