SocialGrep/the-reddit-covid-dataset

Name: SocialGrep/the-reddit-covid-dataset
Creator: SocialGrep
Published: 2022-07-01 18:40:57
License: 暂无描述

Hugging Face2022-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SocialGrep/the-reddit-covid-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含了在Reddit平台上截至2021年10月25日所有标题中包含covid一词的帖子。数据通过SocialGrep从Reddit获取，主要语言为英语。数据集结构包括帖子和评论两种数据类型，每种类型有不同的字段，如类型、ID、子版块信息、创建时间、链接、分数等。

This dataset comprises all Reddit posts with the word "covid" in their titles as of October 25, 2021. The data was collected from Reddit via SocialGrep, and is primarily in English. The dataset structure includes two data types: posts and comments, each with distinct fields such as type, ID, subreddit information, creation timestamp, URL, score, and more.

提供机构：

SocialGrep

原始信息汇总

数据集概述

数据集基本信息

名称: the-reddit-covid-dataset
语言: 英语
许可证: CC-BY 4.0
多语言性: 单语种
大小: 1M<n<10M
数据来源: 原始数据
注释创建者: lexyr
语言创建者: 众包

数据集描述

数据集摘要

内容: 包含社交媒体平台Reddit上所有提及covid的帖子标题，截至2021年10月25日。
获取方式: 通过SocialGrep从Reddit获取。

支持的任务和排行榜

未提供具体信息。

语言

主要语言: 英语

数据集结构

数据实例

类型: 帖子或评论
文件分离: 帖子和评论分别存储在不同文件中。

数据字段

通用字段:
- type: 数据点类型（post或comment）
- id: 数据点Reddit ID（base-36）
- subreddit.id: 所属子论坛Reddit ID（base-36）
- subreddit.name: 所属子论坛名称
- subreddit.nsfw: 是否为成人内容
- created_utc: 创建时间（UTC）
- permalink: Reddit上的链接
- score: 评分
帖子特定字段:
- domain: 链接域名
- url: 链接目标
- selftext: 帖子内容
- title: 帖子标题
评论特定字段:
- body: 评论内容
- sentiment: 情感分析结果

数据集创建

数据集策划理由

未提供具体信息。

源数据

初始数据收集和标准化: 未提供具体信息。
源语言生产者: 未提供具体信息。

注释

注释过程: 未提供具体信息。
注释者: 未提供具体信息。

个人和敏感信息

未提供具体信息。

使用数据注意事项

数据集的社会影响

未提供具体信息。

偏见讨论

未提供具体信息。

其他已知限制

未提供具体信息。

附加信息

数据集管理者

未提供具体信息。

许可证信息

许可证: CC-BY v4.0

贡献

未提供具体信息。

搜集汇总

数据集介绍

构建方式

在社交媒体数据挖掘领域，该数据集通过自动化工具SocialGrep系统性地采集了Reddit平台中所有标题包含“covid”关键词的帖子，时间跨度截至2021年10月25日。数据构建过程依托于平台公开接口，以标题关键词为筛选核心，确保了数据来源的广泛性与时效性。采集后的数据经过结构化处理，分为帖子与评论两类独立文件，并保留了Reddit原生的元数据字段，如时间戳、子版块标识及互动评分等，形成了规模达百万至千万级别的英文语料库。

特点

该数据集的核心特征在于其聚焦于新冠疫情这一全球性公共卫生事件的社交媒体讨论，全面捕捉了Reddit用户在特定时期内的舆论动态。数据以高度结构化的形式呈现，不仅包含文本内容，还整合了丰富的元数据，如子版块分类、内容安全标识及情感分析标签，为多维度研究提供了基础。其单语种（英语）与大规模特性，使其成为分析网络话语模式、信息传播机制及公众情绪演变的珍贵资源。

使用方法

研究人员可通过HuggingFace平台或项目官网直接访问该数据集，依据CC-BY 4.0许可协议进行使用。数据按帖子与评论分别存储，用户可根据研究需求加载相应文件，利用其中的文本字段（如标题、正文）进行内容分析，或结合元数据（如时间戳、评分）开展时序或交互研究。情感分析字段为初步探索提供了便利，但需注意其基于内部管道生成，建议结合更精确的模型进行验证。数据集适用于计算社会科学、舆情监测及公共卫生信息学等领域的实证分析。

背景与挑战

背景概述

在公共卫生危机期间，社交媒体平台成为公众情绪、信息传播与集体行为的重要观测窗口。由SocialGrep团队于2021年构建的Reddit新冠疫情数据集，聚焦于Reddit平台上所有标题包含“covid”关键词的帖子，数据采集截止至2021年10月25日。该数据集旨在捕捉全球疫情背景下网络社区的实时讨论动态，为计算社会科学、流行病学信息学及自然语言处理领域提供大规模、时序性的文本资源。其核心研究问题在于如何通过海量用户生成内容，分析疫情相关信息的扩散模式、公众情感演变以及社区互动特征，从而深化对危机时期社会心理与传播机制的理解。

当前挑战

该数据集致力于应对社交媒体信息挖掘中的关键挑战：如何从非结构化、噪声丰富的短文本中提取具有时效性与主题一致性的讨论内容，以支持疫情信息传播、情感分析及虚假内容检测等任务。在构建过程中，面临多重技术障碍：数据采集需处理Reddit平台的应用编程接口限制与海量实时流数据的存储压力；文本预处理须克服网络用语的不规范性、多义表述以及上下文缺失问题；此外，数据标注与情感分析流程的透明度不足，且数据集中可能存在样本选择偏差与子社区代表性不均，影响下游任务的泛化能力与结论可靠性。

常用场景

经典使用场景

在公共卫生信息学领域，社交媒体数据为理解公众对健康危机的反应提供了独特视角。该数据集通过系统收集Reddit平台上涉及'covid'关键词的帖子标题，构建了大规模疫情相关讨论的语料库。研究者可借助这一资源，深入分析疫情不同阶段公众关注焦点的演变轨迹，识别信息传播的关键节点，并探索社区讨论的情感倾向与话题分布模式。

解决学术问题

该数据集有效解决了数字流行病学研究中社交媒体数据稀缺的结构性问题。通过提供时间跨度长达近两年的标准化数据，学者能够系统考察疫情信息在社交网络中的扩散机制，验证各类公共卫生传播模型的有效性。其价值在于为信息传播动力学、危机沟通策略评估以及集体情绪演变规律等前沿课题提供了实证基础，推动了计算社会科学与公共卫生研究的交叉融合。

衍生相关工作

基于该数据集衍生的经典研究多集中于计算社会科学领域。例如，有学者利用其构建了疫情话题传播的时空演化模型，揭示了信息扩散的网络拓扑特征；另有工作通过情感分析技术，量化了政策公告与公众情绪波动的关联性。这些成果不仅丰富了危机沟通理论，也为后续开发自动化舆情分析工具提供了算法训练基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集