ECR-COVID-19

github2024-01-05 更新2024-05-31 收录

下载链接：

https://github.com/IBM/Dataset-Epidemiologic-Investigation-COVID19

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含COVID-19流行病学病例报告的实体标注，可用于信息提取。创建和贡献此数据集的动机是触发流行病学调查分析和自动化的研究。COVID-19威胁着全人类的健康。为了控制疾病的传播，应进行流行病学调查，追踪每个确诊患者的感染源并隔离其密切接触者。然而，对大量病例报告的分析在流行病学调查中极其耗时且劳动密集。使用最新的NLP技术加速从流行病学病例报告中提取信息应该是一种可行且有效的方法。

This dataset contains entity annotations for epidemiological case reports of COVID-19, which can be used for information extraction. The motivation behind creating and contributing to this dataset is to stimulate research in epidemiological investigation analysis and automation. COVID-19 poses a threat to the health of all humanity. To control the spread of the disease, epidemiological investigations should be conducted to trace the source of infection for each confirmed patient and isolate their close contacts. However, analyzing a large number of case reports is extremely time-consuming and labor-intensive in epidemiological investigations. Utilizing the latest NLP (Natural Language Processing) technologies to accelerate the extraction of information from epidemiological case reports should be a feasible and effective approach.

创建时间：

2020-03-08

原始信息汇总

数据集概述

数据集名称

ECR-COVID-19

数据集目的

用于触发流行病学调查分析和自动化研究，加速从流行病学病例报告中提取信息。

数据收集时间

2019年12月19日至2020年2月7日

数据来源

中国CDC网站
主流新闻网站（如sina.com.cn, people.com.cn, thepaper.cn, news.163.com等）

数据内容

包含病例报告及其对应的实体标签，用于信息提取。

数据格式

每个文件（train.txt, valid.txt, test.txt）包含一系列JSON格式的行。
每行JSON包含以下键：
- doc_id：文档ID
- text：病例报告的原始文本
- entities：文本中所有标记的实体，包括起始位置、结束位置和实体类型。
- patient, relations, events：定义患者、社会关系和事件的三元组结构。

实体类型

包括但不限于：

LocalID
Name
Age
Gender
ResidencePlace
SuspectedPatientContact
InfectionOriginContact
Event
Onset
HospitalVisit
DiagnosisConfirmed
Inpatient
Discharge
Death
Observed
Date
EndDate
Symptom
LabTest
ImagingExamination
Location
Spot
Vehicle
SocialRelation
Negation

引用要求

使用此数据集时，请引用相关论文：

Wang J, Wang K, Li J, Jiang JM, Wang YF, Mei J, Accelerating Epidemiological Investigation Analysis by Using NLP and Knowledge Reasoning: A Case Study on COVID-19, AMIA 2020. (submission)

搜集汇总

数据集介绍

构建方式

ECR-COVID-19数据集的构建基于对COVID-19流行病学案例报告的收集与标注。数据来源于中国疾病预防控制中心（CDC）及主流新闻网站，时间跨度为2019年12月19日至2020年2月7日。通过人工标注，数据集涵盖了实体、关系和事件等多个维度的信息，旨在支持流行病学调查分析的自动化研究。数据以JSON格式存储，每个案例报告包含原始文本及相应的标注信息，确保了数据的结构化和可扩展性。

使用方法

ECR-COVID-19数据集的使用方法主要围绕自然语言处理和信息提取任务展开。用户可以通过加载数据集中的JSON文件，获取案例报告的原始文本及标注信息。数据集适用于训练和评估命名实体识别、关系抽取和事件检测等模型。在使用过程中，用户可根据具体任务需求，提取特定类型的实体或关系，并结合知识推理技术进行深入分析。为便于学术研究，使用该数据集时需引用相关论文，以确保数据的学术透明性和可追溯性。

背景与挑战

背景概述

ECR-COVID-19数据集于2020年由Wang J等研究人员创建，旨在推动流行病学调查分析与自动化的研究。该数据集包含从2019年12月19日至2020年2月7日期间收集的流行病学病例报告，数据来源包括中国疾病预防控制中心（CDC）及多家主流新闻网站。数据集的核心研究问题在于利用自然语言处理（NLP）技术加速从病例报告中提取关键信息，以应对COVID-19疫情中流行病学调查的繁重任务。该数据集不仅为研究者提供了丰富的标注数据，还为相关领域的自动化分析提供了重要支持，推动了流行病学与人工智能的交叉研究。

当前挑战

ECR-COVID-19数据集在构建与应用过程中面临多重挑战。首先，病例报告的信息提取任务复杂，涉及多种实体类型（如患者信息、症状、事件等）及其关系的标注，这对标注的准确性与一致性提出了高要求。其次，数据来源多样且格式不一，需进行大量预处理与标准化工作，以确保数据的可用性与质量。此外，COVID-19疫情的快速演变使得数据集的时效性与覆盖范围成为关键问题，需不断更新以反映最新的流行病学特征。最后，如何将NLP技术有效应用于流行病学调查，仍需克服领域知识融合与模型泛化能力等难题。

常用场景

经典使用场景

ECR-COVID-19数据集在流行病学调查分析中具有重要应用，特别是在COVID-19疫情期间，该数据集通过自然语言处理技术加速了病例报告中的信息提取。研究人员可以利用该数据集中的标注实体、关系和事件，快速识别患者的感染源、接触史、症状及治疗过程，从而为疫情防控提供数据支持。

解决学术问题

ECR-COVID-19数据集解决了流行病学调查中信息提取效率低下的问题。传统方法依赖人工分析大量病例报告，耗时且易出错。该数据集通过引入NLP技术，显著提升了信息提取的自动化水平，为流行病学研究提供了高效的工具，推动了疫情防控的智能化发展。

实际应用

在实际应用中，ECR-COVID-19数据集被广泛用于构建智能化的流行病学调查系统。例如，公共卫生部门可以利用该数据集快速生成患者的感染链条，识别高风险区域和人群，制定精准的防控措施。此外，医疗机构也可通过该数据集优化患者的诊断和治疗流程，提高医疗资源的利用效率。

数据集最近研究