annotated_twitter_covid19_dataset

github2023-08-09 更新2024-05-31 收录

下载链接：

https://github.com/thepanacealab/annotated_twitter_covid19_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含超过1.2亿条自动标注的Twitter推文，专门用于生物医学研究。数据集通过比较多种SpaCy基的标注框架与人工标注的金标准数据集，选择了最佳的自动标注方法。数据集的列包括Tweet_id, annotation_concept_id, annotationStart, annotationEnd，并与Observational Health Data Sciences and Informatics Vocabulary关联，以便于在生物医学领域进行下游使用。

This dataset comprises over 120 million automatically annotated Twitter tweets, specifically curated for biomedical research. The optimal automatic annotation method was selected by comparing various SpaCy-based annotation frameworks with a manually annotated gold standard dataset. The dataset's columns include Tweet_id, annotation_concept_id, annotationStart, annotationEnd, and are linked with the Observational Health Data Sciences and Informatics Vocabulary to facilitate downstream applications in the biomedical field.

创建时间：

2020-12-05

原始信息汇总

数据集概述

数据集名称

A biomedically oriented automatically annotated Twitter COVID-19 Dataset

作者

Luis Alberto Robles Hernandez
Tiffany Callahan
Juan M. Banda

数据集描述

本数据集包含超过120 million条自动标注的Twitter推文，专门用于生物医学研究。数据集通过比较多种SpaCy-based标注框架与人工标注的金标准数据集，选出最佳自动标注方法，从而对推文进行标注。

数据集结构

文件列：Tweet_id, annotation_concept_id, annotationStart, annotationEnd
需将annotation_concept_id列与Observational Health Data Sciences and Informatics Vocabulary关联使用。

使用的词汇集

ICD9CM - ICD9CM v32 master descriptions
ICD10PCS - ICD10PCS 2021
CPT4 - 2020 Release
NDFRT - RXNORM 2018-08-12
HCPCS - 2020 Alpha Numeric HCPCS File
MeSH - 2020 Release
ICD10 - 2020 Release
ICD9Proc - ICD9CM v32 master descriptions
ICD10CM - ICD10CM FY2021 code descriptions
RxNorm - RxNorm 20210104
RxNorm Extension - RxNorm Extension 2021-02-12
SNOMED - 2020-07-31 SNOMED CT International Edition; 2020-09-01 SNOMED CT US Edition; 2020-10-28 SNOMED CT UK Edition

数据集限制

无法共享完整的推文文本，但可通过每个单独的推文ID获取所有数据元素。

数据集访问

数据集链接：https://doi.org/10.5281/zenodo.4606733

搜集汇总

数据集介绍

构建方式

在COVID-19大流行期间，社交媒体数据如Twitter成为了研究疾病特征和社会干预影响的重要资源。annotated_twitter_covid19_dataset的构建采用了自动化注释技术，通过比较多个基于SpaCy的注释框架与手动注释的金标准数据集，选定了最佳的自动注释方法。该方法被应用于超过1.2亿条推文，确保了数据的高临床相关性，并公开发布以供生物医学领域的研究使用。

使用方法

使用annotated_twitter_covid19_dataset时，研究人员需将annotation_concept_id列与Observational Health Data Sciences and Informatics Vocabulary进行关联，以获取详细的医疗注释信息。数据集可通过Zenodo平台获取，用户需根据推文ID重新获取推文全文。该数据集特别适用于研究COVID-19的临床特征、社会影响及长期后遗症等领域。

背景与挑战

背景概述

随着社交媒体数据在生物医学研究中的应用逐渐增加，特别是在COVID-19大流行期间，研究人员开始转向非传统的临床数据源，以实时描述疾病特征、研究干预措施的社会影响以及康复患者的后遗症。然而，手动标注的社交媒体数据集由于成本高昂且难以识别正确的文本而稀缺。2021年，作为生物医学链接标注黑客马拉松的一部分，Luis Alberto Robles Hernandez、Tiffany Callahan和Juan M. Banda发布了包含超过1.2亿条自动标注推文的数据集，旨在为生物医学研究提供支持。该数据集通过最佳实践识别具有高临床相关性的推文，并基于SpaCy框架进行自动标注，最终与手动标注的金标准数据集进行了比较。

当前挑战

该数据集面临的挑战主要包括两个方面。首先，自动标注的准确性依赖于标注框架的选择，尽管与手动标注的金标准数据集进行了比较，但在大规模数据上仍可能存在误差。其次，推文数据的动态性和多样性使得标注结果难以随时间推移或在不同文档集上保持一致性。此外，由于推文全文无法直接共享，研究人员需要通过推文ID重新获取完整数据，这增加了数据使用的复杂性。这些挑战不仅影响了数据集的广泛应用，也对后续的生物医学研究提出了更高的技术要求。

常用场景

经典使用场景

在生物医学研究领域，社交媒体数据的使用逐渐增多，尤其是在COVID-19疫情期间，研究人员转向非传统的临床数据源以实时描述疾病特征。annotated_twitter_covid19_dataset通过自动标注的推文数据，为研究人员提供了一个大规模、高质量的社交媒体数据集，用于分析COVID-19的社会影响、干预措施的效果以及康复患者的长期后遗症。

解决学术问题

该数据集解决了生物医学研究中手动标注社交媒体数据的高成本和低效率问题。通过自动标注框架，研究人员能够快速获取大量具有临床相关性的推文数据，避免了手动标注的繁琐过程。此外，数据集与OHDSI词汇表的结合，使得推文中的医学概念能够被标准化处理，提升了数据的可用性和研究结果的普适性。

实际应用

在实际应用中，annotated_twitter_covid19_dataset被广泛用于公共卫生监测、疾病传播建模以及患者行为分析。例如，研究人员可以通过分析推文中的关键词和情感变化，实时监测COVID-19的传播趋势和公众反应。此外，该数据集还为药物副作用监测和康复患者长期健康跟踪提供了宝贵的数据支持。

数据集最近研究