five

METS-CoV|COVID-19数据集|社交媒体分析数据集

收藏
arXiv2022-09-28 更新2024-06-21 收录
COVID-19
社交媒体分析
下载链接:
https://github.com/YLab-Open/METS-CoV
下载链接
链接失效反馈
资源简介:
METS-CoV是由浙江大学公共卫生学院及第二附属医院等机构创建的一个包含10,000条与COVID-19相关的推文数据集。该数据集包含7种类型的实体,包括4种医学实体类型(疾病、药物、症状和疫苗)和3种通用实体类型(人物、地点和组织)。数据集的创建过程涉及从公开源数据库中收集推文,并通过严格的标注流程确保数据质量。METS-CoV的应用领域包括分析公众对COVID-19相关实体的态度,以及帮助开发针对医学领域的自然语言处理工具,以从社交媒体中挖掘有价值的医学信息。
提供机构:
浙江大学公共卫生学院及第二附属医院
创建时间:
2022-09-28
AI搜集汇总
数据集介绍
main_image_url
构建方式
METS-CoV 数据集的构建始于从开源数据库中收集自 2020 年 2 月 1 日至 2021 年 9 月 30 日的与 COVID-19 相关的推文。在数据预处理阶段,非英文推文和转发推文被移除,随后通过关键词匹配来筛选出包含医学相关内容的推文。最终,经过人工验证,数据集扩展至包含 10,000 条推文,这些推文被标注为 7 种实体类型,包括 4 种医学实体类型(疾病、药物、症状和疫苗)和 3 种一般实体类型(人物、地点和组织)。此外,对其中 4 种实体类型(人物、组织、药物和疫苗)进行了用户情感标注,以探索用户对这些实体的态度。
使用方法
使用 METS-CoV 数据集时,首先需要了解其标注指南和实体类型。数据集被分为训练集、开发集和测试集,用于模型训练和评估。在 NER 任务中,可以利用多种模型进行实体识别,包括传统统计学习模型、神经网络模型、一般领域的大型预训练语言模型以及与 COVID-19 相关的预训练语言模型。在 TSA 任务中,可以使用多种模型进行情感分析,包括统计学习模型、传统神经网络模型、一般领域的大型预训练语言模型以及与 COVID-19 相关的预训练语言模型。用户可以根据自己的研究需求选择合适的模型和训练方法。
背景与挑战
背景概述
METS-CoV数据集是在2022年由浙江大学公共卫生学院、剑桥大学计算机科学和技术系、哈佛大学生物医学信息系等机构的学者共同创建的。该数据集旨在解决现有自然语言处理工具在分析COVID-19相关社交媒体文本时的局限性,并满足公共卫生研究人员对社交媒体文本中医疗实体及其相关态度分析的需求。METS-CoV包含了10,000条与COVID-19相关的推文,其中标注了7种实体类型,包括4种医疗实体类型(疾病、药物、症状、疫苗)和3种一般实体类型(人、地点、组织)。此外,为了进一步研究推文用户对特定实体的态度,该数据集还对4种实体类型(人、组织、药物、疫苗)进行了用户情感标注,形成了一个包含9,101个实体的目标情感分析数据集。METS-CoV是目前第一个收集COVID-19相关推文中的医疗实体及其相关情感的数据集,为构建更好的医疗社交媒体理解工具和促进计算社会科学研究,特别是在流行病学领域,提供了一个基础资源。
当前挑战
METS-CoV数据集面临的挑战主要包括:1)社交媒体文本的噪声性,现有的自然语言处理工具在应用于社交媒体文本时,性能会显著下降;2)领域适应性差,大多数现有的自然语言处理工具是为通用应用开发的,因此在医疗领域的适应性较差;3)缺乏从医疗或公共卫生研究角度设计的NLP工具,这使得它们难以满足公共卫生研究人员对医疗主题分析的需求;4)数据集中实体分布不平衡,由于使用症状词典匹配医疗相关推文,导致医疗实体分布不均;5)情感标注的主观性,尽管制定了严格的标注指南,但情感标注仍然难以避免主观性。
常用场景
经典使用场景
METS-CoV数据集,作为首个收集COVID-19相关推文中医疗实体及其对应情感的语料库,其经典使用场景在于自然语言处理(NLP)领域,特别是针对医疗社交媒体文本的实体识别(NER)和情感分析(TSA)任务。通过这一数据集,研究者能够构建并训练模型,以更准确地识别出社交媒体文本中的疾病、药物、症状和疫苗等医疗实体,并分析用户对这些实体的情感倾向。这有助于公共卫生研究人员更好地理解公众对医疗话题的看法,从而指导医疗研究和公共卫生管理。
解决学术问题
METS-CoV数据集解决了现有NLP工具在分析COVID-19相关社交媒体文本时遇到的挑战。这些工具通常未针对社交媒体文本进行优化,导致在处理诸如推文等嘈杂文本时性能下降。此外,这些工具主要针对通用应用开发,缺乏来自医疗研究的领域知识,难以适应医疗领域的需求。METS-CoV数据集从公共卫生研究的角度出发,提供了丰富的医疗实体和情感标注,为开发定制化的NLP工具提供了基础资源。这使得研究人员能够更有效地追踪公众对COVID-19疫苗接种的态度,监测不同疫情阶段的公众心理健康状况,为解决全球心理健康危机提供潜在解决方案。
实际应用
METS-CoV数据集的实际应用场景广泛,包括但不限于公共卫生管理、医疗研究和政策制定。例如,通过分析公众对COVID-19疫苗和药物的态度,可以制定更有效的疫苗接种政策。同时,通过追踪不同疫情阶段的公众心理健康状况,可以提供针对全球心理健康危机的解决方案。此外,METS-CoV数据集还可用于开发智能健康监测系统,通过分析社交媒体文本中的医疗实体和情感信息,提前预警疫情发展态势。
数据集最近研究
最新研究方向
METS-CoV数据集聚焦于从社交媒体文本中提取医疗实体并分析用户对这些实体的情感倾向。该数据集的发布填补了COVID-19相关社交媒体文本在医疗实体识别和情感分析方面的空白。METS-CoV数据集包含了10,000条推文,这些推文被标注为7种实体类型,包括4种医疗实体类型(疾病、药物、症状和疫苗)和3种通用实体类型(人物、地点和组织)。此外,数据集中还包含了9,101个实体(分布在5,278条推文中)的情感标注,以进一步研究推文用户对特定实体的态度。METS-CoV数据集的发布为构建更好的医疗社交媒体理解工具和促进计算社会科学研究提供了基础资源。
相关研究论文
  • 1
    METS-CoV: A Dataset of Medical Entity and Targeted Sentiment on COVID-19 Related Tweets浙江大学公共卫生学院及第二附属医院 · 2022年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

OpenPose

OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。

github.com 收录

Tropicos

Tropicos是一个全球植物名称数据库,包含超过130万种植物的名称、分类信息、分布数据、图像和参考文献。该数据库由密苏里植物园维护,旨在为植物学家、生态学家和相关领域的研究人员提供全面的植物信息。

www.tropicos.org 收录

OMIM (Online Mendelian Inheritance in Man)

OMIM是一个包含人类基因和遗传疾病信息的在线数据库。它提供了详细的遗传疾病描述、基因定位、相关文献和临床信息。数据集内容包括疾病名称、基因名称、基因定位、遗传模式、临床特征、相关文献引用等。

www.omim.org 收录

NAEP - National Assessment of Educational Progress

NAEP(国家教育进展评估)数据集包含了美国全国范围内对学生学术成就的定期评估结果。该数据集涵盖了多个学科领域,如阅读、数学、科学等,并提供了不同年级和不同州的数据。数据集还包括了学生的背景信息和社会经济因素,以帮助分析教育成就的影响因素。

nces.ed.gov 收录

SARDet-100K

SARDet-100K数据集是由南开大学计算机科学与技术学院的研究团队开发的,旨在解决SAR目标检测领域数据集有限和代码不可访问的问题。该数据集通过整合和标准化10个公开的SAR检测数据集,提供了约116,598张图像和245,653个目标实例,覆盖了飞机、船只、汽车、桥梁、坦克和港口等6个类别。SARDet-100K不仅是首个COCO级别的大规模多类别SAR目标检测数据集,而且通过其大规模和多样性,为SAR目标检测算法的研究和评估提供了强有力的支持。数据集的标准化处理确保了图像分辨率和标注格式的统一,便于与流行的开源检测代码框架兼容,极大地促进了SAR目标检测技术的发展和创新。

arXiv 收录