Influenza and Wikipedia Dataset|流感监测数据集|网络数据分析数据集
收藏数据集概述
数据集名称
Influenza and Wikipedia Dataset
数据内容
-
流感数据:记录了多个欧洲国家从2007-2008流感季节至2018-2019流感季节的流感活动水平。每个国家的数据文件名为
{year}_{year+1}.csv
,包含以下列:week
: 格式为year
-week_number
的字符串incidence
: 该周每100000人中的流感病例数
-
Wikipedia数据:包含特定Wikipedia页面的页面浏览量和页面计数数据。数据按国家分类,目录名为
wikipedia_{country}
,进一步细分为:complete
: 合并了页面浏览量和页面计数数据pageviews
: 仅包含页面浏览量数据,自2015年5月起可用pagecounts
: 仅包含页面计数数据,数据范围从2007年到2015年cyclerank/pagerank
: 使用CycleRank或PageRank算法选择特定页面的完整数据集cyclerank_pageviews/pagerank_pageviews
: 使用CycleRank或PageRank算法选择特定页面的页面浏览量数据
数据来源
- 意大利数据来自InfluNet服务
- 比利时、奥地利和荷兰的数据来自FluNet监测工具
- 德国数据来自Survstat
- 美国数据来自FluView
许可证
流感数据集的许可信息不明确,版权属于生产这些数据的机构。Wikipedia页面浏览量数据集来自Wikimedia的pagecounts-raw
数据集,该数据集发布于公共领域。
引用信息
- De Toni, Giovanni, Consonni, Cristian, and Montresor, Alberto. “Influenza activity levels and Wikipedia pageviews 2007-2018.” doi: 10.5281/zenodo.2248501.

开源PHM数据集
本文分享了一个全球各大学、研究机构和公司捐赠的PHM(Prognostics and Health Management)开源数据集,涵盖加工制造、轨道交通、能源电力和半导体等行业的多种场景,包含部件级、设备级和产线级数据。用户可以利用这些数据开发智能分析和建模算法,数据集分类包括故障诊断、健康评估和寿命预测。
github 收录
Wind Turbine Data
该数据集包含风力涡轮机的运行数据,包括风速、风向、发电量等参数。数据记录了多个风力涡轮机在不同时间点的运行状态,适用于风能研究和风力发电系统的优化分析。
www.kaggle.com 收录
CMNEE(Chinese Military News Event Extraction dataset)
CMNEE(Chinese Military News Event Extraction dataset)是国防科技大学、东南大学和清华大学联合构建的一个大规模的、基于文档标注的开源中文军事新闻事件抽取数据集。该数据集包含17,000份文档和29,223个事件,所有事件均基于预定义的军事领域模式人工标注,包括8种事件类型和11种论元角色。数据集构建遵循两阶段多轮次标注策略,首先通过权威网站获取军事新闻文本并预处理,然后依据触发词字典进行预标注,经领域专家审核后形成事件模式。随后,通过人工分批、迭代标注并持续修正,直至满足既定质量标准。CMNEE作为首个专注于军事领域文档级事件抽取的数据集,对推动相关研究具有显著意义。
github 收录
MedChain
MedChain是由香港城市大学、香港中文大学、深圳大学、阳明交通大学和台北荣民总医院联合创建的临床决策数据集,包含12,163个临床案例,涵盖19个医学专科和156个子类别。数据集通过五个关键阶段模拟临床工作流程,强调个性化、互动性和顺序性。数据来源于中国医疗网站“iiYi”,经过专业医生验证和去识别化处理,确保数据质量和患者隐私。MedChain旨在评估大型语言模型在真实临床场景中的诊断能力,解决现有基准在个性化医疗、互动咨询和顺序决策方面的不足。
arXiv 收录
鄱阳湖流域主要水文站实时日水位观测数据集(2017-2024年)
该数据集为鄱阳湖流域主要水文站的逐日实时水位数据集。包含了外洲站、李家渡站、湖口站、星子站、万家埠站、都昌等10个主要水文站的日水位数据,观测时间为每日8:00。共享政策为一次可共享3000条数据,一个站点的一日数据为一条记录,一年可申请一次。 数据集包含1个excel表格文件,日水位.xlsx。
国家地球系统科学数据中心 收录