five

davidwisdom/reddit-randomness

收藏
Hugging Face2021-11-06 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/davidwisdom/reddit-randomness
下载链接
链接失效反馈
官方服务:
资源简介:
Reddit Randomness数据集是一个关于Reddit上r/random子版块随机性的数据集。数据集通过向`https://www.reddit.com/r/random`发送`GET`请求,在2021年9月19日收集了几个小时的数据。数据集包含两个文件:`randomness_12k_clean.csv`记录了12,055次成功的r/random请求结果,每行代表一个结果;`summary.csv`则总结了`randomness_12k_clean.csv`中的信息,包含了3,679个唯一子版块的元数据,如订阅者数量、当前用户数量、创建日期等。数据集中存在一些缺失值,部分子版块在数据收集期间被禁止或设为私有,这些情况在数据中用描述性字符串标记。此外,数据集中可能包含一些NSFW内容。
提供机构:
davidwisdom
原始信息汇总

Reddit Randomness Dataset 概述

数据集描述

该数据集由个人创建,旨在探索 r/random 子版块的随机性。数据收集于2021年9月19日,通过向 https://www.reddit.com/r/random 发送 GET 请求进行。

数据文件

randomness_12k_clean.csv

  • 记录内容:记录了从 r/random 获取的12,055次成功结果。
  • 数据结构
    • subreddit:子版块名称 (string)
    • response_code:HTTP响应码 (int,始终为 302)

summary.csv

  • 记录内容:总结了 randomness_12k_clean.csv 中的信息,包含3,679个独特子版块的统计数据。
  • 数据结构
    • subreddit:子版块名称 (string, 唯一)
    • subscribers:订阅者数量 (int, 最大值 99_886)
    • current_users:过去15分钟内访问用户数 (int, 最大值 999)
    • creation_date:子版块创建日期 (YYYY-MM-DDError:PrivateSubError:Banned)
    • date_accessed:收集订阅者和当前用户数据的日期 (YYYY-MM-DD)
    • time_accessed_UTC:收集订阅者和当前用户数据的UTC时间 (HH:MM:SS)
    • appearances:子版块在 randomness_12k_clean.csv 中出现的次数 (int, 最大值 9)

数据集特点

  • 缺失值处理:在 summary.csv 中,对于三种子版块因被禁或设为私有而无法获取创建日期的情况,使用描述性字符串填充。
  • 包含内容:数据集中可能包含 NSFW(不适宜工作环境)内容,尽管仅查询了 r/random 而非 r/randnsfw。

许可证

数据集遵循开放数据库许可证 Open Database License: http://opendatacommons.org/licenses/odbl/1.0/。个别数据库内容遵循数据库内容许可证 Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作