five

SocialGrep/the-reddit-place-dataset

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/the-reddit-place-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集记录了Reddit上/r/Place板块的帖子和评论的历史。数据集主要包含两种类型的数据点:帖子和评论。帖子数据点包括类型、ID、所属子板块ID、子板块名称、子板块是否为NSFW、创建时间、永久链接、评分、域名、URL、自述文本和标题等字段。评论数据点包括类型、ID、所属子板块ID、子板块名称、子板块是否为NSFW、创建时间、永久链接、评分、评论正文和情感分析结果等字段。数据集主要使用英语,数据量在100万到1000万之间。
提供机构:
SocialGrep
原始信息汇总

数据集概述

数据集名称

  • 名称:the-reddit-place-dataset

数据集摘要

  • 描述:The written history or /r/Place, in posts and comments.
  • 语言:主要为英语(en)

数据集结构

  • 数据实例
    • 类型:帖子或评论
    • 存储:帖子与评论分别存储在不同的文件中
  • 数据字段
    • 通用字段:
      • type: 数据点类型(post 或 comment)
      • id: 数据点的Reddit ID(base-36)
      • subreddit.id: 数据点所在子论坛的Reddit ID(base-36)
      • subreddit.name: 数据点所在子论坛的人类可读名称
      • subreddit.nsfw: 标记数据点所在子论坛是否为NSFW(是/否)
      • created_utc: 数据点的UTC时间戳
      • permalink: 数据点在Reddit上的链接
      • score: 数据点在Reddit上的评分
    • 帖子特定字段:
      • domain: 帖子链接的域名
      • url: 帖子链接的目标地址
      • selftext: 帖子的自定义文本
      • title: 帖子的标题
    • 评论特定字段:
      • body: 评论的内容
      • sentiment: 评论的情感分析结果

数据集创建

  • 源数据:原始数据
  • 注释:由lexyr创建
  • 语言创建者:众包

许可证信息

  • 许可证:CC-BY 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作