five

Influenza and Wikipedia Dataset

收藏
github2020-08-26 更新2024-05-31 收录
下载链接:
https://github.com/geektoni/influenza-wikipedia-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集记录了多个欧洲国家从2007-2008流感季节到2018-2019年的流感发病活动水平,并包含了维基百科特定页面的页面浏览和页面计数数据。数据集结构清晰,详细记录了每周的数据,并根据国家和数据类型进行了分类。

This dataset documents the influenza activity levels across several European countries from the 2007-2008 flu season to the 2018-2019 season, and includes page view and page count data from specific Wikipedia pages. The dataset is well-structured, detailing weekly data, and is categorized by country and data type.
创建时间:
2018-12-11
原始信息汇总

数据集概述

数据集名称

Influenza and Wikipedia Dataset

数据内容

  1. 流感数据:记录了多个欧洲国家从2007-2008流感季节至2018-2019流感季节的流感活动水平。每个国家的数据文件名为{year}_{year+1}.csv,包含以下列:

    • week: 格式为year-week_number的字符串
    • incidence: 该周每100000人中的流感病例数
  2. Wikipedia数据:包含特定Wikipedia页面的页面浏览量和页面计数数据。数据按国家分类,目录名为wikipedia_{country},进一步细分为:

    • complete: 合并了页面浏览量和页面计数数据
    • pageviews: 仅包含页面浏览量数据,自2015年5月起可用
    • pagecounts: 仅包含页面计数数据,数据范围从2007年到2015年
    • cyclerank/pagerank: 使用CycleRank或PageRank算法选择特定页面的完整数据集
    • cyclerank_pageviews/pagerank_pageviews: 使用CycleRank或PageRank算法选择特定页面的页面浏览量数据

数据来源

许可证

流感数据集的许可信息不明确,版权属于生产这些数据的机构。Wikipedia页面浏览量数据集来自Wikimedia的pagecounts-raw数据集,该数据集发布于公共领域。

引用信息

  • De Toni, Giovanni, Consonni, Cristian, and Montresor, Alberto. “Influenza activity levels and Wikipedia pageviews 2007-2018.” doi: 10.5281/zenodo.2248501.
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集通过整合多个欧洲国家自2007-2008至2018-2019流感季节的流感活动水平数据,并结合特定维基百科页面的浏览量数据构建而成。流感数据来源于各国的公共卫生监测系统,如意大利的InfluNet服务、德国的Survstat应用等,而维基百科数据则从Wikimedia的公开数据集中提取。数据集按国家和年份进行组织,进一步细分为完整数据、仅浏览量数据和仅页面计数数据,以支持不同研究需求。
特点
该数据集的特点在于其跨时间和跨国家的流感活动记录与维基百科页面浏览数据的结合。数据集不仅提供了详细的流感发病率数据,还包含了特定维基百科页面的浏览量和页面计数信息,这些页面与流感相关主题密切相关。此外,数据集通过CycleRank和PageRank算法筛选特定页面,进一步增强了数据的针对性和研究价值。这种多维度的数据整合为研究流感传播与公众信息获取行为之间的关系提供了丰富的基础。
使用方法
该数据集的使用方法较为灵活,研究者可以根据需要选择特定国家、年份或数据类型进行分析。数据集按周为单位组织,便于时间序列分析。对于流感数据,可以直接读取按流感季节划分的CSV文件,获取每周的流感发病率。对于维基百科数据,可以选择完整数据集或仅浏览量、页面计数数据,并结合关键词列表进行特定主题的分析。此外,通过CycleRank和PageRank算法筛选的页面数据,可用于深入研究公众对流感相关信息的关注度变化。
背景与挑战
背景概述
Influenza and Wikipedia 数据集由Giovanni De Toni、Cristian Consonni和Alberto Montresor等研究人员于2018年创建,旨在探索流感活动水平与维基百科页面浏览量之间的关系。该数据集涵盖了2007-2008至2018-2019年间的多个欧洲国家的流感发病率数据,并结合了维基百科特定页面的浏览量和页面计数数据。通过整合流感监测数据与维基百科用户行为数据,该数据集为公共卫生领域的研究提供了新的视角,尤其是在流感预测和流行病学监测方面具有重要价值。其跨学科的研究方法不仅推动了流感传播模型的优化,也为基于网络数据的流行病学研究开辟了新路径。
当前挑战
Influenza and Wikipedia 数据集在构建和应用过程中面临多重挑战。首先,流感发病率数据的获取依赖于多个国家的公共卫生机构,数据格式和标准的不统一增加了数据整合的复杂性。其次,维基百科页面浏览量的数据采集涉及大规模数据处理,尤其是在区分有效浏览与噪声数据方面存在技术难度。此外,如何从海量维基百科页面中筛选出与流感相关的页面,并确保其代表性,是数据集构建中的关键问题。最后,跨学科数据的融合要求研究人员具备流行病学与数据科学的双重知识背景,这对研究团队提出了更高的要求。
常用场景
经典使用场景
Influenza and Wikipedia数据集在流行病学研究中具有重要应用,尤其是在流感的监测与预测领域。该数据集通过整合多个欧洲国家的流感活动水平数据与维基百科页面浏览量数据,为研究者提供了一个独特的视角,用于分析流感流行趋势与公众信息搜索行为之间的关联。经典使用场景包括利用时间序列分析方法,探索流感发病率与特定维基百科页面访问量之间的相关性,从而为公共卫生决策提供数据支持。
衍生相关工作
该数据集衍生了许多经典研究工作,特别是在流感预测与健康信息传播领域。例如,基于该数据集的研究提出了利用维基百科页面浏览量作为流感活动水平的早期指标,相关成果发表在《PLOS ONE》等顶级期刊上。此外,该数据集还被用于开发基于机器学习的流感预测模型,推动了大数据在公共卫生领域的应用。这些研究不仅验证了数据集的科学价值,也为后续研究提供了重要的参考与启发。
数据集最近研究
最新研究方向
近年来,Influenza and Wikipedia Dataset在公共卫生与大数据分析领域的交叉研究中展现出重要价值。该数据集结合了欧洲多个国家的流感活动水平数据与维基百科页面浏览量数据,为研究者提供了独特的视角来探索流感传播与公众信息搜索行为之间的关联。前沿研究主要集中在利用机器学习算法,如CycleRank和PageRank,分析维基百科页面浏览数据与流感发病率之间的相关性,从而预测流感爆发趋势。此外,该数据集还被用于评估公共卫生干预措施的效果,以及研究社交媒体数据在疾病监测中的潜力。这些研究不仅推动了流感预测模型的优化,也为公共卫生政策的制定提供了数据支持,具有重要的社会意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作