five

Influenza and Wikipedia Dataset

收藏
github2020-08-26 更新2024-05-31 收录
下载链接:
https://github.com/fluTN/influenza-wikipedia-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集记录了多个欧洲国家从2007-2008流感季节到2018-2019年度的流感活动水平,并包含了针对特定维基百科页面的页面浏览量和页面计数数据。数据集结构清晰,分为多个子目录,详细记录了每周的流感发病率和维基百科页面数据。

This dataset records influenza activity levels across multiple European countries from the 2007–2008 flu season through the 2018–2019 flu season, alongside page view and page count data for specific Wikipedia pages. The dataset has a well-organized structure, divided into multiple subdirectories that comprehensively document weekly influenza incidence rates and Wikipedia page-related data.
创建时间:
2018-12-11
原始信息汇总

流感与维基百科数据集

数据描述

该数据集包含记录了多个欧洲国家从2007-2008流感季节到2018-2019流感季节的流感活动水平数据,以及针对特定维基百科页面的页面浏览量和页面计数数据。

目录命名如下:

  • wikipedia_{country}:包含所选维基百科页面的页面浏览量/页面计数数据。页面浏览量按年份划分,页面浏览量/页面计数按周汇总。每个文件包含以下列:
    • week:由year-week_number组成的字符串;
    • 其他列以所监测的维基百科页面命名;
  • {country}:包含指定国家的流感发病率数据。发病率信息按每个流感季节(跨越两年)划分。文件命名为{year}_{year+1}.csv。每个文件包含以下列:
    • week:由year-week_number组成的字符串;
    • incidence:特定周内每100000人中的流感病例发病率;

此外,每个wikipedia_{country}目录内还有一层划分(这种划分也存在于{country}目录中,但仅对页面浏览量数据有意义,因为发病率数据仅为了提高可用性而划分):

  • complete:包含通过合并页面浏览量和页面计数数据得到的完整数据集;
  • pageviews:仅包含页面浏览量数据(自2015年5月起可用);
  • pagecounts:仅包含页面计数数据(数据范围从2007年到2015年);
  • cyclerank/pagerank:包含完整数据集,但数据涉及通过CycleRank或PageRank算法选择的一组特定页面;
  • cyclerank_pageviews/pagerank_pageviews:仅包含页面浏览量数据(自2015年5月起可用),但数据涉及通过CycleRank或PageRank算法选择的一组特定页面;

唯一的例外是USA目录,其中发病率数据提供在一个名为2007_2013.csv的单一文件中。此外,对于美国,仅提取了页面计数数据。

其他目录

keywords目录包含所选维基百科页面的列表。每个文件命名为keywords_{country}.csv,并包含所有监测页面的简单列表。还有其他文件命名为keywords_{method}_{country}.csv,其中包含通过给定{method}(如CycleRank或PageRank)选择的所有监测页面的简单列表。

搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个欧洲国家从2007-2008年至2018-2019年流感季节的流感样病例(ILI)活动水平数据,以及特定维基百科页面的页面浏览量和页面计数数据构建而成。流感数据按国家和流感季节划分,维基百科数据则按年份和周进行聚合,并进一步细分为完整数据集、仅页面浏览量、仅页面计数以及基于CycleRank或PageRank算法筛选的页面数据。
特点
该数据集的特点在于其多维度的数据整合,涵盖了流感发病率和维基百科页面访问量的时间序列数据。通过将流感发病率与维基百科页面访问量相结合,研究者可以探索公共卫生事件与公众信息需求之间的潜在关联。此外,数据集还提供了基于不同算法筛选的页面数据,为研究提供了更丰富的分析维度。
使用方法
使用该数据集时,研究者可通过读取不同国家和流感季节的CSV文件,获取流感发病率和维基百科页面访问量的详细数据。数据集的结构清晰,文件命名规范,便于按需提取特定时间段或特定国家的数据。此外,研究者还可利用`keywords`目录中的关键词列表,进一步筛选和分析特定主题的维基百科页面数据。
背景与挑战
背景概述
Influenza and Wikipedia Dataset 是由 Giovanni De Toni、Cristian Consonni 和 Alberto Montresor 等研究人员于2018年创建的数据集,旨在探索流感活动水平与维基百科页面浏览量之间的潜在关联。该数据集涵盖了2007年至2018年间多个欧洲国家的流感发病率数据,并结合了维基百科特定页面的浏览量和页面计数数据。通过整合流感监测数据与维基百科用户行为数据,该数据集为研究公共卫生事件与公众信息需求之间的关系提供了重要支持。其研究背景源于流感疫情的全球性影响以及互联网数据在公共卫生监测中的潜在应用价值。该数据集不仅为流感传播模型提供了新的数据源,也为基于网络数据的流行病学研究开辟了新的方向。
当前挑战
Influenza and Wikipedia Dataset 面临的挑战主要体现在两个方面。首先,在解决领域问题上,如何准确捕捉流感发病率与维基百科页面浏览量之间的因果关系是一个核心难题。尽管数据集中提供了丰富的时序数据,但流感传播的复杂性和公众信息搜索行为的多样性使得建模过程充满挑战。其次,在数据构建过程中,研究人员需要处理多源异构数据的整合问题。流感数据来自不同国家的监测系统,而维基百科数据则涉及页面浏览量和页面计数的不同统计方式,如何确保数据的一致性和可比性是一个重要挑战。此外,维基百科数据的可用性限制(如2015年之前的页面浏览量数据缺失)也为研究带来了额外的复杂性。
常用场景
经典使用场景
Influenza and Wikipedia Dataset 数据集在流行病学研究领域具有重要应用,尤其是在流感传播监测方面。研究人员通过分析欧洲多个国家从2007年至2018年的流感活动水平数据,结合维基百科相关页面的浏览量数据,能够实时追踪流感传播趋势。这种数据集的经典使用场景包括利用维基百科页面浏览量的变化来预测流感爆发的早期信号,从而为公共卫生决策提供科学依据。
解决学术问题
该数据集解决了流感传播监测中的关键学术问题,特别是在缺乏实时监测数据的地区。通过结合流感发病率和维基百科页面浏览量的数据,研究人员能够更准确地预测流感传播的时空动态。这种数据融合方法不仅提高了流感监测的时效性,还为流行病学建模提供了新的数据源,推动了基于互联网数据的公共卫生研究。
衍生相关工作
基于该数据集,许多经典研究工作得以展开。例如,研究人员开发了基于维基百科页面浏览量的流感传播预测模型,这些模型在多个国家的流感监测中得到了验证。此外,该数据集还催生了基于互联网数据的流行病学研究方法,推动了大数据在公共卫生领域的应用。相关研究不仅发表在流行病学领域的顶级期刊上,还为全球流感监测网络的构建提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作