COVID-19-tweets-Russia

github2022-07-27 更新2024-05-31 收录

下载链接：

https://github.com/sag111/COVID-19-tweets-Russia

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了与Covid-19相关的俄语推文，包括标注部分和未标注部分。标注部分包含9,860条推文，分为训练集、验证集和测试集，用于机器学习模型的训练。未标注部分包括705,453条推文，用于分析俄罗斯大区域的用户推文，以及1,979,247条推文，用于语言模型训练。

This dataset comprises Russian-language tweets related to Covid-19, including both annotated and unannotated portions. The annotated section contains 9,860 tweets, divided into training, validation, and test sets for the training of machine learning models. The unannotated portion includes 705,453 tweets for analyzing user tweets across a broad region of Russia, and 1,979,247 tweets intended for language model training.

创建时间：

2021-08-11

原始信息汇总

数据集概述

数据收集

类型1：标注数据
- 数量：9,860条
- 组成：训练集5,916条，验证集1,972条，测试集1,972条
- 描述：随机选取的10,000条包含“covid”关键词的俄语推文，时间范围为2020年3月1日至2021年3月1日，经过人工标注分为5个类别。
类型2：未标注数据（区域相关）
- 数量：705,453条
- 描述：使用58个与冠状病毒感染相关的俄语关键词搜索，涉及俄罗斯15个最大区域中心。
类型3：未标注数据（语言模型训练）
- 数量：1,979,247条
- 描述：扩展关键词“covid”，包含其他与Covid-19疫情相关的俄语词汇，总计约200万条推文。

数据链接

标注数据链接：位于./data/labeled_corpus_links.csv。
未标注数据链接：上传至云存储，可通过链接访问。

模型

基础模型：基于XLM-RoBERTA-large。
训练：在未标注的冠状病毒主题推文上进行额外训练，模型名为“covid-twitter-xlm-roberta-large”。
应用：用于推文分类任务，包括多标签分类和二元分类。

结果

性能：在二元分类任务上，F1分数达到0.85。
应用：模型成功用于分类未标注数据集中的推文。

引用信息

文献：Sboev, Alexander et al. "The Russian language corpus and a neural network to analyse Internet tweet reports about Covid-19." (2021).

搜集汇总

数据集介绍

构建方式

COVID-19-tweets-Russia数据集的构建过程主要分为三个部分。首先，研究人员收集了2020年3月1日至2021年3月1日期间包含“covid”一词的俄语推文，并从中随机选取了10,000条推文进行人工标注，分为五类：高置信度潜在感染、低置信度潜在感染、高置信度已感染、低置信度已感染以及其他。其次，研究人员从俄罗斯15个最大地区的用户中收集了705,453条未标注的推文，这些推文通过58个与新冠病毒相关的关键词进行筛选。最后，为了训练语言模型，研究人员扩展了关键词范围，收集了1,979,247条与新冠病毒相关的推文，其中包括约100万条俄语推文和100万条其他语言的推文。

使用方法

COVID-19-tweets-Russia数据集的使用方法主要包括数据下载、模型训练和结果分析。用户可以通过GitHub页面提供的链接下载标注和未标注的推文数据。研究人员可以使用基于XLM-RoBERTa-large的预训练语言模型进行进一步的微调，以完成多标签分类或二分类任务。数据集中提供的Jupyter Notebook文件详细展示了如何对预训练模型进行微调。此外，研究人员还可以利用该数据集进行疫情动态分析，通过推文内容与官方统计数据的对比，验证模型的准确性。

背景与挑战

背景概述

COVID-19-tweets-Russia数据集由Alexander Sboev等研究人员于2021年创建，旨在解决俄语社交媒体中关于COVID-19的文本分析问题。该数据集包含从2020年3月1日至2021年3月1日期间收集的俄语推文，涵盖了用户报告COVID-19症状的内容。研究人员通过手动标注和自动分类相结合的方式，构建了一个包含近10,000条标注推文和超过200万条未标注推文的数据集。这一数据集不仅为俄语自然语言处理领域提供了宝贵的资源，还为公共卫生领域的研究提供了新的视角，特别是在疫情监测和公众情绪分析方面。

当前挑战

COVID-19-tweets-Russia数据集在构建过程中面临多重挑战。首先，俄语社交媒体数据的稀缺性使得初始数据收集变得困难，尤其是在缺乏现成的俄语推文数据集的情况下。其次，推文内容的多样性和语言表达的复杂性增加了标注的难度，特别是在区分用户是否真正报告COVID-19症状时。此外，数据的地理分布和用户背景的多样性也要求研究人员开发复杂的过滤和分类算法，以确保数据的代表性和准确性。最后，如何将推文内容与官方疫情数据进行有效关联，以验证模型的可靠性，也是该数据集面临的重要挑战之一。

常用场景

经典使用场景

COVID-19-tweets-Russia数据集在自然语言处理领域中被广泛用于训练和评估模型，特别是针对俄语社交媒体文本的分类任务。该数据集通过提供大量标注和未标注的俄语推文，帮助研究人员开发能够自动识别与COVID-19相关内容的机器学习模型。这些模型能够有效区分用户是否报告了COVID-19症状或相关经历，从而为公共卫生监测提供数据支持。

解决学术问题

该数据集解决了俄语社交媒体文本分析中的一个关键问题，即缺乏针对COVID-19相关内容的标注数据。通过提供高质量的标注数据，研究人员能够训练出高精度的分类模型，从而实现对俄语推文中COVID-19相关信息的自动提取。这不仅填补了俄语自然语言处理领域的空白，还为全球范围内的疫情监测提供了新的数据来源。

实际应用

在实际应用中，COVID-19-tweets-Russia数据集被用于监测和分析俄罗斯地区的疫情动态。通过分析社交媒体上的推文，研究人员能够实时追踪COVID-19的传播趋势，并与官方统计数据进行比较。这种基于社交媒体的监测方法为公共卫生部门提供了额外的数据支持，帮助其更准确地评估疫情发展并制定相应的防控措施。

数据集最近研究