davidwisdom/reddit-randomness
收藏Hugging Face2021-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davidwisdom/reddit-randomness
下载链接
链接失效反馈官方服务:
资源简介:
Reddit Randomness数据集是一个关于Reddit上r/random子版块随机性的数据集。数据集通过向`https://www.reddit.com/r/random`发送`GET`请求,在2021年9月19日收集了几个小时的数据。数据集包含两个文件:`randomness_12k_clean.csv`记录了12,055次成功的r/random请求结果,每行代表一个结果;`summary.csv`则总结了`randomness_12k_clean.csv`中的信息,包含了3,679个唯一子版块的元数据,如订阅者数量、当前用户数量、创建日期等。数据集中存在一些缺失值,部分子版块在数据收集期间被禁止或设为私有,这些情况在数据中用描述性字符串标记。此外,数据集中可能包含一些NSFW内容。
提供机构:
davidwisdom
原始信息汇总
Reddit Randomness Dataset 概述
数据集描述
该数据集由个人创建,旨在探索 r/random 子版块的随机性。数据收集于2021年9月19日,通过向 https://www.reddit.com/r/random 发送 GET 请求进行。
数据文件
randomness_12k_clean.csv
- 记录内容:记录了从 r/random 获取的12,055次成功结果。
- 数据结构:
subreddit:子版块名称 (string)response_code:HTTP响应码 (int,始终为302)
summary.csv
- 记录内容:总结了
randomness_12k_clean.csv中的信息,包含3,679个独特子版块的统计数据。 - 数据结构:
subreddit:子版块名称 (string, 唯一)subscribers:订阅者数量 (int, 最大值99_886)current_users:过去15分钟内访问用户数 (int, 最大值999)creation_date:子版块创建日期 (YYYY-MM-DD或Error:PrivateSub或Error:Banned)date_accessed:收集订阅者和当前用户数据的日期 (YYYY-MM-DD)time_accessed_UTC:收集订阅者和当前用户数据的UTC时间 (HH:MM:SS)appearances:子版块在randomness_12k_clean.csv中出现的次数 (int, 最大值9)
数据集特点
- 缺失值处理:在
summary.csv中,对于三种子版块因被禁或设为私有而无法获取创建日期的情况,使用描述性字符串填充。 - 包含内容:数据集中可能包含 NSFW(不适宜工作环境)内容,尽管仅查询了 r/random 而非 r/randnsfw。
许可证
数据集遵循开放数据库许可证 Open Database License: http://opendatacommons.org/licenses/odbl/1.0/。个别数据库内容遵循数据库内容许可证 Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/。



