reddit-uwaterloo
收藏Hugging Face2024-09-04 更新2024-12-12 收录
下载链接:
https://huggingface.co/datasets/alvanlii/reddit-uwaterloo
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含从2015年至2024年r/uwaterloo子版块的提交内容。每年数据单独配置,包含帖子ID、内容、评分、发布者、日期、标签、标题、永久链接、NSFW状态和更新状态等特征。数据集定期更新,最新更新增加了新行。使用特定工具创建,并遵循Reddit的许可条款。用户可以通过提交拉取请求选择退出,过滤特定ID。
This dataset contains all submissions from the r/uwaterloo subreddit between 2015 and 2024. Each year’s data is independently organized, with fields including post ID, content, score, submitter, date, tags, title, permalink, NSFW status, and update status. The dataset is updated regularly, with new entries added in the most recent update. It was constructed using specialized tools and complies with Reddit’s licensing terms. Users may opt out by submitting a pull request, and can filter for specific post IDs.
创建时间:
2024-08-27
原始信息汇总
数据集概述
数据集信息
配置名称:year_2015
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 3229520num_examples: 5774
- 下载大小: 1995677
- 数据集大小: 3229520
配置名称:year_2016
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 5298054num_examples: 9701
- 下载大小: 3351804
- 数据集大小: 5298054
配置名称:year_2017
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 6890884num_examples: 12528
- 下载大小: 4379140
- 数据集大小: 6890884
配置名称:year_2018
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 8211812num_examples: 16222
- 下载大小: 5213177
- 数据集大小: 8211812
配置名称:year_2019
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 8106214num_examples: 16480
- 下载大小: 5151454
- 数据集大小: 8106214
配置名称:year_2020
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 7788083num_examples: 15028
- 下载大小: 4827949
- 数据集大小: 7788083
配置名称:year_2021
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 6087531num_examples: 11615
- 下载大小: 3737340
- 数据集大小: 6087531
配置名称:year_2022
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 6050750num_examples: 11233
- 下载大小: 3706016
- 数据集大小: 6050750
配置名称:year_2023
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: boolupdated: boolnew: bool__index_level_0__: int64
- 分割:
train:num_bytes: 261num_examples: 1
- 下载大小: 6649
- 数据集大小: 261
配置名称:year_2024
- 特征:
id: stringcontent: stringscore: int64poster: stringdate_utc: timestamp[ns]flair: stringtitle: stringpermalink: stringnsfw: bool__index_level_0__: float64updated: boolnew: bool
- 分割:
train:num_bytes: 259789num_examples: 524
- 下载大小: 166314
- 数据集大小: 259789
数据文件配置
配置名称:year_2015
- 数据文件:
split: trainpath: year_2015/train-*
配置名称:year_2016
- 数据文件:
split: trainpath: year_2016/train-*
配置名称:year_2017
- 数据文件:
split: trainpath: year_2017/train-*
配置名称:year_2018
- 数据文件:
split: trainpath: year_2018/train-*
配置名称:year_2019
- 数据文件:
split: trainpath: year_2019/train-*
配置名称:year_2020
- 数据文件:
split: trainpath: year_2020/train-*
配置名称:year_2021
- 数据文件:
split: trainpath: year_2021/train-*
配置名称:year_2022
- 数据文件:
split: trainpath: year_2022/train-*
配置名称:year_2023
- 数据文件:
split: trainpath: year_2023/train-*
配置名称:year_2024
- 数据文件:
split: trainpath: year_2024/train-*
搜集汇总
数据集介绍

构建方式
reddit-uwaterloo数据集是通过Reddit API和PRAW库从[r/uwaterloo](https://www.reddit.com/r/uwaterloo/)子论坛中提取的公开数据集。数据涵盖了从2015年至2024年的帖子内容,每个年份的数据被单独配置为不同的子集。数据集的构建过程包括从Reddit平台抓取帖子信息,并将其结构化存储为包含ID、内容、评分、发帖者、时间戳、标签、标题、链接、NSFW标记等字段的记录。数据集的更新频率由自定义脚本控制,最近一次更新于2024年12月12日。
特点
该数据集的特点在于其时间跨度和丰富的内容属性。每个年份的数据集均包含数千条记录,涵盖了帖子的文本内容、用户互动评分、发帖者信息以及时间戳等关键字段。此外,数据集还提供了NSFW标记、更新状态和帖子标签等元数据,为研究社区动态、用户行为以及内容传播提供了多维度的分析基础。数据集的规模逐年递增,反映了子论坛活动的增长趋势。
使用方法
使用reddit-uwaterloo数据集时,用户可以通过Hugging Face平台直接访问不同年份的子集。每个子集以CSV格式存储,可通过标准的数据处理工具加载和分析。数据集适用于自然语言处理、社交网络分析以及时间序列分析等研究领域。用户还可以通过Hugging Face提供的API接口动态获取最新数据,或根据需求筛选特定年份或字段的数据。此外,数据集的使用需遵循Reddit的API使用条款,用户可通过提交pull request的方式申请数据排除。
背景与挑战
背景概述
reddit-uwaterloo数据集是由alvanlii团队创建的,旨在提供一个开放的、基于Reddit平台上的r/uwaterloo子论坛的帖子数据集。该数据集通过PRAW和Reddit API获取数据,涵盖了从2015年至2024年的帖子内容。数据集的主要研究问题集中在社交媒体数据的分析与挖掘,特别是针对特定社区(如大学社区)的讨论内容进行深入分析。该数据集为研究社交媒体行为、社区动态以及用户生成内容的趋势提供了宝贵资源,对社会科学、计算语言学等领域具有重要的研究价值。
当前挑战
reddit-uwaterloo数据集在构建过程中面临多重挑战。首先,数据获取依赖于Reddit API,其访问限制和数据更新频率可能影响数据的完整性和时效性。其次,社交媒体数据的多样性和复杂性使得数据清洗和预处理成为一项艰巨任务,特别是如何处理非结构化文本、过滤不相关或低质量内容。此外,数据集的隐私和伦理问题也不容忽视,如何在保护用户隐私的同时确保数据的开放性和可用性,是构建过程中需要权衡的关键问题。最后,随着时间推移,社区讨论的主题和风格可能发生变化,如何确保数据集能够反映这些动态变化,也是未来研究中的一大挑战。
常用场景
经典使用场景
reddit-uwaterloo数据集广泛应用于社交媒体分析和自然语言处理领域。该数据集包含了r/uwaterloo子论坛的帖子内容、评分、发帖者信息及时间戳等丰富信息,为研究者提供了分析在线社区行为、用户互动模式以及内容传播机制的宝贵资源。通过该数据集,研究者能够深入探讨Reddit平台上的社区动态和用户行为特征。
解决学术问题
该数据集有效解决了社交媒体研究中数据获取的难题,尤其是在分析特定社区(如大学子论坛)的用户行为和内容传播方面。通过提供详细的帖子信息和时间序列数据,研究者能够进行情感分析、话题演化追踪以及社区结构分析,进一步推动了社交媒体生态系统的学术研究。
衍生相关工作
基于reddit-uwaterloo数据集,许多经典研究工作得以展开。例如,研究者利用该数据集开发了基于深度学习的用户行为预测模型,分析了社区中的话题演化趋势,并探讨了用户互动对内容传播的影响。这些研究不仅丰富了社交媒体分析的理论框架,还为实际应用提供了有力的技术支持。
以上内容由遇见数据集搜集并总结生成



