IDOBE

Name: IDOBE
Creator: 弗吉尼亚大学·生物复杂性研究所; 康奈尔大学·兽医学院公共与生态系统健康系; 约翰霍普金斯大学; 匹兹堡大学
Published: 2026-04-21 01:18:18
License: 暂无描述

arXiv2026-04-21 更新2026-04-22 收录

下载链接：

https://github.com/NSSAC/IDOBE

下载链接

链接失效反馈

官方服务：

资源简介：

IDOBE是由弗吉尼亚大学生物复杂性研究所主导构建的传染病爆发预测基准数据集，整合了Tycho、JHU-CSSE等四大数据源逾百年的监测数据，涵盖13种疾病的10,799次爆发事件。该数据集通过导数分割算法生成标准化时间序列，包含病例数、住院率等多维度指标，并采用信息熵和排列熵量化流行病学多样性。其核心价值在于为机器学习模型提供跨疾病、跨区域的标准化测试环境，特别针对历史数据有限的新发传染病预测场景，推动预测方法的可复现性评估。

IDOBE is a benchmark dataset for infectious disease outbreak prediction, developed and led by the Institute for Biocomplexity at the University of Virginia. It incorporates over a century of surveillance data from four major data sources including Tycho, JHU-CSSE and others, covering 10,799 outbreak events across 13 diseases. This dataset generates standardized time series via the derivative segmentation algorithm, and includes multi-dimensional indicators such as case counts and hospitalization rates. It quantifies epidemiological diversity using information entropy and permutation entropy. Its core value lies in providing a standardized testing environment for machine learning models across diseases and regions, specifically targeting the prediction scenario of emerging infectious diseases with limited historical data, to promote the reproducibility assessment of prediction methods.

提供机构：

弗吉尼亚大学·生物复杂性研究所; 康奈尔大学·兽医学院公共与生态系统健康系; 约翰霍普金斯大学; 匹兹堡大学

创建时间：

2026-04-21

原始信息汇总

IDOBE: Infectious Disease Outbreak forecasting Benchmark Ecosystem 数据集概述

数据集简介

IDOBE是一个专注于疫情预测的流行病学时间序列精选集合。该数据集汇编了来自多个数据仓库、跨越一个多世纪的监测数据，涵盖美国各州和全球多个地点。

数据集内容

提供超过10000条对应不同疾病的疫情时间序列。
包含用于提取分析指标以分析疫情的脚本。
提供一套训练好的基线预测模型（统计模型和深度神经网络模型）。
包含概率预测的评估脚本。

数据文件与结构

原始数据文件：raw_data/outbreaks_disease_location.csv
数据统计信息目录：stats/output/，包含不同疫情的熵、排列熵和形态统计量。
统计计算脚本：stats/stats_compute.ipynb，用于计算不同统计量的笔记本。
基线模型目录：baselines/src/，包含不同类别的模型。

数据来源与范围

数据来源于多个数据仓库。
时间跨度超过一个世纪。
地理范围涵盖美国各州和全球多个地点。

搜集汇总

数据集介绍

构建方式

在传染病预测领域，标准化的基准数据集对于评估模型性能至关重要。IDOBE数据集通过整合多个历史数据源，包括Tycho、JHU-CSSE COVID-19数据仓库、美国疾病控制与预防中心以及国家医疗安全网络的监测数据，构建了一个覆盖13种疾病、248个地理位置的流行病时间序列集合。采用基于导数的分割方法，利用EpidemicKabu工具包识别时间序列中的峰值和拐点，将连续监测数据切割为独立的疫情爆发片段，最终生成超过10,000个疫情爆发案例，涵盖病例、住院等多种疾病负担指标。为确保数据质量，排除了持续时间过短或过长的片段，并在每个片段前后添加了四周的上下文数据，以支持模型训练与评估。

特点

IDOBE数据集展现出显著的流行病学多样性，覆盖了从历史疫苗可预防疾病如脊髓灰质炎和麻疹，到现代大流行如COVID-19的广泛疾病谱系。通过信息论和分布度量，如香农熵和排列熵，量化了疫情轨迹的异质性，揭示了不同疾病在爆发强度、可预测性和形态上的差异。数据集中多数疫情呈现左偏态分布和负超额峰度，反映了典型疫情曲线的陡峭上升与缓慢下降特征。这种多样性使得IDOBE能够模拟新发疫情或数据有限场景下的预测挑战，为模型鲁棒性评估提供了丰富环境。

使用方法

IDOBE数据集支持多步短期预测任务，聚焦于1至4周的疫情进展预测。用户可基于提供的疫情时间序列，利用数据集内置的11种基线模型进行性能基准测试，这些模型涵盖统计方法、基于MLP、Transformer和RNN的深度学习架构。数据集采用扩展窗口设置模拟实时预测场景，模型在疫情进展中逐步访问观察数据以生成预测。评估指标包括点预测的归一化均方误差和平均绝对百分比误差，以及概率预测的归一化加权区间评分，确保全面衡量预测准确性。所有数据、模型和评估脚本均通过公开代码库提供，支持标准化、可复现的预测方法比较与开发。

背景与挑战

背景概述

在计算流行病学领域，实时传染病预测已成为公共卫生应对的关键组成部分。IDOBE（传染病暴发预测基准生态系统）由弗吉尼亚大学生物复杂性研究所等机构的研究团队于2026年提出，旨在解决多模型预测方法缺乏标准化评估基准的难题。该数据集整合了跨越一个多世纪的监测数据，涵盖13种疾病、248个地理位置的超过一万次暴发事件，核心研究问题聚焦于提升对历史数据有限的新发疫情预测能力。IDOBE通过系统化的疫情分割与多维度分析，为预测模型提供了可复现的评估框架，显著推动了传染病预测科学向标准化、可比较的方向发展。

当前挑战

IDOBE所应对的领域挑战在于提升对历史数据稀缺的新发传染病暴发的预测准确性，例如早期COVID-19或埃博拉疫情，传统模型往往因缺乏季节性模式而失效。在构建过程中，研究团队面临多重挑战：一是数据整合的复杂性，需统一来自Tycho、JHU-CSSE等多个来源的异构时间序列，其时间分辨率、疾病分类与地域覆盖差异显著；二是疫情分割的科学界定，需通过导数分析从连续监测曲线中提取独立暴发事件，并平衡噪声过滤与流行病学真实性；三是评估标准的统一，需融合点预测与概率预测指标，以全面量化模型在疫情不同阶段的表现差异。

常用场景

经典使用场景

在传染病预测领域，IDOBE数据集为评估和比较各类预测模型提供了一个标准化的基准平台。该数据集通过整合跨越一个多世纪、涵盖13种不同疾病（如麻疹、脊髓灰质炎、COVID-19等）的流行病学时间序列，并利用导数分割技术生成了超过一万个独立的疫情爆发片段。研究人员通常利用IDOBE来测试统计模型（如ARIMA、ETS）、机器学习模型（如MLP、N-BEATS）以及深度学习模型（如LSTM、Transformer）在短期（1至4周）疫情预测任务中的表现。通过统一的评估指标，如归一化加权区间分数（NWIS），IDOBE使得不同模型在多样化疫情轨迹上的性能对比成为可能，从而推动了预测方法在真实世界疫情响应中的科学优化。

解决学术问题

IDOBE数据集主要解决了传染病预测研究中缺乏标准化、多疾病基准数据的核心问题。在以往的研究中，模型评估往往依赖于单一疾病或有限的历史数据，难以全面反映模型在面对新型或数据稀缺疫情时的泛化能力。IDOBE通过提供涵盖广泛疾病类型、地理区域和时间跨度的疫情片段，使得研究者能够系统性地探究模型在疫情不同阶段（如峰值前与峰值后）的预测稳定性，并量化模型对于疫情轨迹多样性（通过熵、排列熵等指标表征）的适应能力。这为理解模型在有限历史数据情境下的表现、以及推动预测科学从特定疾病向通用框架发展奠定了实证基础。

衍生相关工作

围绕IDOBE数据集，已衍生出一系列专注于传染病预测模型开发与评估的经典研究工作。例如，基于该数据集的基准测试结果揭示了MLP类模型在跨疫情阶段和预测时域上具有相对稳健的性能，而统计模型在疫情峰值前阶段略有优势，这一发现推动了后续研究中对混合模型或阶段自适应模型架构的探索。同时，IDOBE的构建理念与方法也影响了其他基准倡议，如旨在评估通用时间序列预测模型的GIFT-Eval，以及专注于预训练流行病模型（如PEMS）的研究。这些工作共同深化了对于如何利用历史疫情数据提升模型在新型疫情中预测能力的理解，并促进了预测科学在计算流行病学子领域的持续发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集