Influenza and Wikipedia Dataset|流感监测数据集|网络数据分析数据集

github2020-08-26 更新2024-05-31 收录

流感监测

网络数据分析

下载链接：

https://github.com/geektoni/influenza-wikipedia-dataset

下载链接

链接失效反馈

资源简介：

该数据集记录了多个欧洲国家从2007-2008流感季节到2018-2019年的流感发病活动水平，并包含了维基百科特定页面的页面浏览和页面计数数据。数据集结构清晰，详细记录了每周的数据，并根据国家和数据类型进行了分类。

This dataset documents the influenza activity levels across several European countries from the 2007-2008 flu season to the 2018-2019 season, and includes page view and page count data from specific Wikipedia pages. The dataset is well-structured, detailing weekly data, and is categorized by country and data type.

创建时间：

2018-12-11

原始信息汇总

数据集概述

数据集名称

Influenza and Wikipedia Dataset

数据内容

流感数据：记录了多个欧洲国家从2007-2008流感季节至2018-2019流感季节的流感活动水平。每个国家的数据文件名为{year}_{year+1}.csv，包含以下列：
- week: 格式为year-week_number的字符串
- incidence: 该周每100000人中的流感病例数
Wikipedia数据：包含特定Wikipedia页面的页面浏览量和页面计数数据。数据按国家分类，目录名为wikipedia_{country}，进一步细分为：
- complete: 合并了页面浏览量和页面计数数据
- pageviews: 仅包含页面浏览量数据，自2015年5月起可用
- pagecounts: 仅包含页面计数数据，数据范围从2007年到2015年
- cyclerank/pagerank: 使用CycleRank或PageRank算法选择特定页面的完整数据集
- cyclerank_pageviews/pagerank_pageviews: 使用CycleRank或PageRank算法选择特定页面的页面浏览量数据

数据来源

意大利数据来自InfluNet服务
比利时、奥地利和荷兰的数据来自FluNet监测工具
德国数据来自Survstat
美国数据来自FluView

许可证

流感数据集的许可信息不明确，版权属于生产这些数据的机构。Wikipedia页面浏览量数据集来自Wikimedia的pagecounts-raw数据集，该数据集发布于公共领域。

引用信息

De Toni, Giovanni, Consonni, Cristian, and Montresor, Alberto. “Influenza activity levels and Wikipedia pageviews 2007-2018.” doi: 10.5281/zenodo.2248501.

AI搜集汇总

数据集介绍

构建方式

该数据集通过整合多个欧洲国家自2007-2008至2018-2019流感季节的流感活动水平数据，并结合特定维基百科页面的浏览量数据构建而成。流感数据来源于各国的公共卫生监测系统，如意大利的InfluNet服务、德国的Survstat应用等，而维基百科数据则从Wikimedia的公开数据集中提取。数据集按国家和年份进行组织，进一步细分为完整数据、仅浏览量数据和仅页面计数数据，以支持不同研究需求。

特点

该数据集的特点在于其跨时间和跨国家的流感活动记录与维基百科页面浏览数据的结合。数据集不仅提供了详细的流感发病率数据，还包含了特定维基百科页面的浏览量和页面计数信息，这些页面与流感相关主题密切相关。此外，数据集通过CycleRank和PageRank算法筛选特定页面，进一步增强了数据的针对性和研究价值。这种多维度的数据整合为研究流感传播与公众信息获取行为之间的关系提供了丰富的基础。

使用方法

该数据集的使用方法较为灵活，研究者可以根据需要选择特定国家、年份或数据类型进行分析。数据集按周为单位组织，便于时间序列分析。对于流感数据，可以直接读取按流感季节划分的CSV文件，获取每周的流感发病率。对于维基百科数据，可以选择完整数据集或仅浏览量、页面计数数据，并结合关键词列表进行特定主题的分析。此外，通过CycleRank和PageRank算法筛选的页面数据，可用于深入研究公众对流感相关信息的关注度变化。

背景与挑战

背景概述

Influenza and Wikipedia 数据集由Giovanni De Toni、Cristian Consonni和Alberto Montresor等研究人员于2018年创建，旨在探索流感活动水平与维基百科页面浏览量之间的关系。该数据集涵盖了2007-2008至2018-2019年间的多个欧洲国家的流感发病率数据，并结合了维基百科特定页面的浏览量和页面计数数据。通过整合流感监测数据与维基百科用户行为数据，该数据集为公共卫生领域的研究提供了新的视角，尤其是在流感预测和流行病学监测方面具有重要价值。其跨学科的研究方法不仅推动了流感传播模型的优化，也为基于网络数据的流行病学研究开辟了新路径。

当前挑战

Influenza and Wikipedia 数据集在构建和应用过程中面临多重挑战。首先，流感发病率数据的获取依赖于多个国家的公共卫生机构，数据格式和标准的不统一增加了数据整合的复杂性。其次，维基百科页面浏览量的数据采集涉及大规模数据处理，尤其是在区分有效浏览与噪声数据方面存在技术难度。此外，如何从海量维基百科页面中筛选出与流感相关的页面，并确保其代表性，是数据集构建中的关键问题。最后，跨学科数据的融合要求研究人员具备流行病学与数据科学的双重知识背景，这对研究团队提出了更高的要求。

常用场景

经典使用场景

Influenza and Wikipedia数据集在流行病学研究中具有重要应用，尤其是在流感的监测与预测领域。该数据集通过整合多个欧洲国家的流感活动水平数据与维基百科页面浏览量数据，为研究者提供了一个独特的视角，用于分析流感流行趋势与公众信息搜索行为之间的关联。经典使用场景包括利用时间序列分析方法，探索流感发病率与特定维基百科页面访问量之间的相关性，从而为公共卫生决策提供数据支持。

衍生相关工作

该数据集衍生了许多经典研究工作，特别是在流感预测与健康信息传播领域。例如，基于该数据集的研究提出了利用维基百科页面浏览量作为流感活动水平的早期指标，相关成果发表在《PLOS ONE》等顶级期刊上。此外，该数据集还被用于开发基于机器学习的流感预测模型，推动了大数据在公共卫生领域的应用。这些研究不仅验证了数据集的科学价值，也为后续研究提供了重要的参考与启发。

数据集最近研究

最新研究方向

近年来，Influenza and Wikipedia Dataset在公共卫生与大数据分析领域的交叉研究中展现出重要价值。该数据集结合了欧洲多个国家的流感活动水平数据与维基百科页面浏览量数据，为研究者提供了独特的视角来探索流感传播与公众信息搜索行为之间的关联。前沿研究主要集中在利用机器学习算法，如CycleRank和PageRank，分析维基百科页面浏览数据与流感发病率之间的相关性，从而预测流感爆发趋势。此外，该数据集还被用于评估公共卫生干预措施的效果，以及研究社交媒体数据在疾病监测中的潜力。这些研究不仅推动了流感预测模型的优化，也为公共卫生政策的制定提供了数据支持，具有重要的社会意义。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

开源PHM数据集

本文分享了一个全球各大学、研究机构和公司捐赠的PHM（Prognostics and Health Management）开源数据集，涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景，包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法，数据集分类包括故障诊断、健康评估和寿命预测。

github 收录

Wind Turbine Data

该数据集包含风力涡轮机的运行数据，包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态，适用于风能研究和风力发电系统的优化分析。

www.kaggle.com 收录

CMNEE（Chinese Military News Event Extraction dataset）

CMNEE（Chinese Military News Event Extraction dataset）是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件，所有事件均基于预定义的军事领域模式人工标注，包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略，首先通过权威网站获取军事新闻文本并预处理，然后依据触发词字典进行预标注，经领域专家审核后形成事件模式。随后，通过人工分批、迭代标注并持续修正，直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集，对推动相关研究具有显著意义。

github 收录

MedChain

MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集，包含12,163个临床案例，涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程，强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”，经过专业医生验证和去识别化处理，确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力，解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。

arXiv 收录

鄱阳湖流域主要水文站实时日水位观测数据集（2017-2024年）

该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据，观测时间为每日8：00。共享政策为一次可共享3000条数据，一个站点的一日数据为一条记录，一年可申请一次。数据集包含1个excel表格文件，日水位.xlsx。

国家地球系统科学数据中心收录