EPIWATCH
收藏github2024-12-05 更新2024-12-06 收录
下载链接:
https://github.com/CBDRH/hds-datathon-data
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含九个变量和超过40,000条记录,每条记录代表一个提及一种或多种传染病或综合症的在线新闻文章。数据集提供了关键的文章细节,包括日期、位置、疾病、综合症和文章URL。数据集涵盖了12个国家,并包含七种疾病和多种综合症的信息。
This dataset contains nine variables and over 40,000 records, with each record representing an online news article that mentions one or more infectious diseases or syndromes. The dataset provides critical article details including publication date, location, disease, syndrome, and article URL. It covers 12 countries and includes information on seven diseases and multiple syndromes.
创建时间:
2024-11-28
原始信息汇总
Health Data Science Datathon 2024
数据集概述
数据内容
- 包含九个变量和超过40,000条记录。
- 每条记录代表一篇提及一种或多种传染病或综合症的在线新闻文章。
- 关键信息包括:
- 日期
- 地点
- 疾病
- 综合症
- 文章URL
数据示例
- 示例展示了乌克兰每日提及COVID-19的文章数量趋势。
数据集总结
国家
- 数据涵盖12个国家:
- 美国
- 印度
- 中国
- 俄罗斯联邦
- 乌克兰
- 英国
- 越南
- 印度尼西亚
- 巴西
- 澳大利亚
- 阿根廷
- 尼日利亚
- 还包括:
- 具体地点(如悉尼,新南威尔士)
- 坐标(如[-33.873, 151.205])
疾病
- 数据涵盖7种疾病:
- 流感(多种菌株)
- COVID-19
- Mpox
- 军团病
- 登革热
- 麻疹
- 霍乱
综合症
- 综合症指更广泛的症状,通常在疾病未知时记录。
- 常见综合症包括:
- 急性胃肠炎
- 严重急性呼吸综合征
- 发热综合症
- 肺炎
- 流感样疾病
数据访问
- 最新EPIWATCH数据以
epiwatch-latest.csv文件形式提供。 - 可通过导航至release文件夹下载或直接读取到统计软件包中。
使用R读取数据
r url <- "https://raw.githubusercontent.com/CBDRH/hds-datathon-data/refs/heads/main/release/epiwatch-latest.csv" data <- read.csv(url) head(data)
使用Python读取数据
python import pandas as pd url = "https://raw.githubusercontent.com/CBDRH/hds-datathon-data/refs/heads/main/release/epiwatch-latest.csv" data = pd.read_csv(url) print(data.head())
搜集汇总
数据集介绍

构建方式
EPIWATCH数据集的构建基于对全球在线新闻文章的广泛收集与分析。该数据集涵盖了超过40,000条新闻记录,每条记录对应一篇提及一种或多种传染病或综合症的在线新闻文章。数据集的构建过程中,研究人员提取了关键信息,包括文章发布日期、地理位置、涉及的疾病和综合症,以及文章的URL。这些信息通过自动化工具和人工审核相结合的方式进行提取和验证,确保数据的准确性和完整性。
特点
EPIWATCH数据集的显著特点在于其广泛的地理覆盖和多样的疾病与综合症分类。该数据集包含了来自12个国家的数据,涵盖了从美国到尼日利亚的广泛区域。此外,数据集详细记录了7种主要疾病和多种综合症,为研究者提供了丰富的信息资源。特别值得一提的是,数据集还区分了不同类型的流感,包括季节性流感和禽流感,这为深入研究提供了可能。
使用方法
EPIWATCH数据集的使用方法简便且灵活。用户可以通过下载名为`epiwatch-latest.csv`的CSV文件直接获取数据,或者使用R和Python等编程语言直接从GitHub读取数据。例如,在R中,用户可以通过指定CSV文件的URL并使用`read.csv`函数读取数据;在Python中,则可以使用`pandas`库的`read_csv`方法实现相同功能。这些方法使得数据集的访问和分析变得高效且便捷,适用于各类数据科学和公共卫生研究项目。
背景与挑战
背景概述
EPIWATCH数据集由Health Data Science Datathon 2024活动引入,旨在通过分析在线新闻文章来预测和监控传染病趋势。该数据集包含了超过40,000条记录,每条记录代表一篇提及一种或多种传染病或综合征的在线新闻文章。主要研究人员或机构通过整合来自十二个国家的数据,包括美国、印度、中国等,提供了详细的日期、地理位置、疾病类型和文章链接等信息。EPIWATCH的核心研究问题是如何通过新闻数据来预测和监控传染病的爆发,这对公共卫生领域具有重要意义,尤其是在全球化和信息传播迅速的背景下。
当前挑战
EPIWATCH数据集在构建和应用过程中面临多重挑战。首先,数据来源的多样性和新闻报道的主观性可能导致信息的不一致和偏差。其次,地理位置和坐标数据的准确性问题,如示例中的坐标指向了一个不相关的地点,这可能影响空间分析的可靠性。此外,区分不同类型的流感(如季节性流感与禽流感)也是一个技术难题,因为许多记录并未详细区分。最后,如何从早期报道的模糊症状中准确识别和预测具体的疾病类型,如从‘不明肺炎’到‘军团病’的转变,是该数据集在实际应用中的一个重要挑战。
常用场景
经典使用场景
在公共卫生领域,EPIWATCH数据集的经典使用场景主要集中在疾病监测与预测。通过分析新闻文章中的疾病提及频率和地理位置,研究人员能够识别出疾病爆发的早期信号,从而为公共卫生决策提供及时的数据支持。例如,通过追踪COVID-19在乌克兰的新闻报道,可以观察到疫情的发展趋势,为政府和医疗机构制定防控策略提供依据。
实际应用
在实际应用中,EPIWATCH数据集被广泛用于公共卫生监测系统。例如,政府和医疗机构可以利用该数据集来监控特定地区的疾病爆发情况,及时调整公共卫生政策。此外,国际组织如世界卫生组织(WHO)也可以利用该数据集进行全球疾病趋势分析,为跨国疫情防控提供科学依据。
衍生相关工作
EPIWATCH数据集的发布催生了一系列相关研究工作。例如,有研究利用该数据集开发了基于新闻报道的疾病预测模型,显著提高了疫情预警的准确性。此外,还有研究探讨了如何通过自然语言处理技术从新闻文本中提取更多有用的疾病信息,进一步丰富了数据集的应用场景。这些衍生工作不仅提升了数据集的学术价值,也为公共卫生实践带来了新的工具和方法。
以上内容由遇见数据集搜集并总结生成



