five

EDNA-Covid

收藏
arXiv2020-10-21 更新2024-06-21 收录
下载链接:
https://forms.gle/dFYhuMzyPMunY17H9
下载链接
链接失效反馈
官方服务:
资源简介:
EDNA-Covid是由佐治亚理工学院计算机科学学院创建的大型多语种COVID-19推文数据集,自2020年1月25日起收集,包含超过6亿条来自全球的推文,涵盖10多种语言。该数据集通过EDNA流媒体工具包收集,旨在捕捉疫情相关的社会动态和语言变化。数据集的创建过程涉及使用Twitter的流媒体API,并通过关键词过滤和数据清洗来确保数据的相关性和质量。EDNA-Covid数据集的应用领域广泛,包括但不限于社交传播建模、可信度分析、主题建模和假新闻检测,为研究疫情相关的社会和语言现象提供了宝贵资源。

EDNA-Covid is a large-scale multilingual COVID-19 tweet dataset developed by the School of Computer Science at the Georgia Institute of Technology. Collected since January 25, 2020, it contains over 600 million global tweets spanning more than 10 languages. Collected via the EDNA streaming toolkit, this dataset is designed to capture pandemic-related social dynamics and linguistic changes. Its development process utilizes Twitter's Streaming API, with keyword filtering and data cleaning steps implemented to ensure data relevance and quality. The EDNA-Covid dataset covers a wide range of application fields, including but not limited to social propagation modeling, credibility analysis, topic modeling, and fake news detection, serving as a valuable resource for researching pandemic-related social and linguistic phenomena.
提供机构:
佐治亚理工学院计算机科学学院
创建时间:
2020-10-07
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作