ECR-COVID-19
收藏github2020-04-08 更新2024-05-31 收录
下载链接:
https://github.com/alessandromarialva/Dataset-Epidemiologic-Investigation-COVID19
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含COVID-19流行病学病例报告,并附有实体标注,用于信息提取。数据集的创建旨在促进流行病学调查分析和自动化研究。
This dataset comprises epidemiological case reports of COVID-19, accompanied by entity annotations for information extraction. The creation of this dataset is aimed at facilitating epidemiological investigation analysis and automation research.
创建时间:
2020-04-08
原始信息汇总
数据集概述
数据集名称
ECR-COVID-19
数据集内容
该数据集包含从2019年12月19日至2020年2月7日收集的COVID-19流行病学病例报告,这些报告已通过手动标注实体、关系和事件。
数据集用途
用于信息提取,旨在加速流行病学调查分析的研究。
数据来源
数据来源于中国疾病预防控制中心网站和主流新闻网站,如新浪、人民网、澎湃新闻和网易新闻等。
数据格式
数据集包含三个文件:train.txt, valid.txt, test.txt。每个文件中的每一行是一个JSON格式的字符串,包含一个病例报告及其对应的标签。JSON键包括:
doc_id: 文档IDtext: 病例报告的原始文本entities: 文本中所有标注的实体,包括实体类型和位置patient,relations,events: 定义患者、社会关系和事件的三元组结构
示例数据结构
json { "doc_id": 6886, "text": "患者二十九,女,56岁,现住瑞安,无武汉外出史或旅游史,与确诊病例有接触史,1月20日发病,咳嗽咳痰、肌肉酸痛、气促,现在定点医疗机构隔离治疗。", "entities": [...], "patient": [...], "relations": [], "events": [...] }
引用信息
若使用此数据集,请引用相关论文:
Wang J, Wang K, Li J, Jiang JM, Wang YF, Mei J, Accelerating Epidemiological Investigation Analysis by Using NLP and Knowledge Reasoning: A Case Study on COVID-19, AMIA 2020. (submission)
搜集汇总
数据集介绍

构建方式
ECR-COVID-19数据集的构建,旨在通过对2019年12月19日至2020年2月7日间,源自中国疾控中心官网及主流新闻网站发布的流行病学案例报告进行人工标注,提取其中的实体、关系和事件,进而形成结构化的数据集。该数据集的构建过程融合了自然语言处理技术与知识推理,为自动化流行病学调查分析提供了数据支撑。
特点
该数据集的特色在于其详尽的标注信息,涵盖了患者ID、姓名、年龄、性别、居住地等多个维度的实体信息,以及病例报告中的事件、地点、时间等关系和事件类型。数据以JSON格式存储,便于信息提取和后续分析,特别是在流行病学调查自动化领域具有重要的应用价值。
使用方法
使用该数据集时,用户需依据数据集提供的JSON格式,对train.txt、valid.txt、test.txt三个文件中的案例报告及其对应标注进行解析。数据集详细标注了文本中的实体及其类型,并利用结构化的三元组形式表示患者、社会关系和事件之间的关系,便于研究者进行深入的数据挖掘和模型训练。
背景与挑战
背景概述
ECR-COVID-19数据集是一项针对新型冠状病毒肺炎疫情下的流行病学案例报告的实体标注数据集,其创建旨在推动流行病学调查分析及自动化的研究。该数据集的构建始于2020年,由王健等研究人员提交至AMIA 2020的论文《Accelerating Epidemiological Investigation Analysis by Using NLP and Knowledge Reasoning: A Case Study on COVID-19》所伴随。该数据集的成立得到了中国疾病预防控制中心及其地方分支机构的支持,以及多家主流新闻网站的协助,为研究COVID-19的流行病学调查提供了重要的数据资源。
当前挑战
该数据集在构建过程中所面临的挑战主要包括:1) 如何从大量复杂的流行病学案例报告中提取有效的信息,以支持疫情调查分析;2) 实体标注的准确性和一致性,确保实体识别和关系抽取的可靠性;3) 数据集的规模和多样性,以满足不同场景下自动化处理的需求。在解决领域问题方面,ECR-COVID-19数据集面临的挑战是如何利用自然语言处理技术,高效地从流行病学案例报告中提取关键信息,为疫情防控提供及时、准确的数据支持。
常用场景
经典使用场景
ECR-COVID-19数据集作为一份珍贵的信息资源,其经典使用场景主要在于助力自然语言处理技术在疫情调查分析中的应用研究。通过对疫情案例报告中的实体、关系和事件进行标注,该数据集为研究者提供了自动化处理和分析疫情数据的可能性。
实际应用
在实际应用中,ECR-COVID-19数据集可以被用于构建自动化疫情监控系统,通过实时分析病例报告,快速识别疫情发展趋势和关键信息,从而为疫情防控决策提供数据支撑。
衍生相关工作
基于该数据集,研究者们已开展了一系列相关工作,包括但不限于开发自动化疫情信息抽取系统、构建疫情知识图谱以及开展疫情趋势预测等,进一步拓展了数据集的应用范围和影响力。
以上内容由遇见数据集搜集并总结生成



