SocialGrep/the-reddit-place-dataset
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/the-reddit-place-dataset
下载链接
链接失效反馈官方服务:
资源简介:
该数据集记录了Reddit上/r/Place板块的帖子和评论的历史。数据集主要包含两种类型的数据点:帖子和评论。帖子数据点包括类型、ID、所属子板块ID、子板块名称、子板块是否为NSFW、创建时间、永久链接、评分、域名、URL、自述文本和标题等字段。评论数据点包括类型、ID、所属子板块ID、子板块名称、子板块是否为NSFW、创建时间、永久链接、评分、评论正文和情感分析结果等字段。数据集主要使用英语,数据量在100万到1000万之间。
提供机构:
SocialGrep
原始信息汇总
数据集概述
数据集名称
- 名称:the-reddit-place-dataset
数据集摘要
- 描述:The written history or /r/Place, in posts and comments.
- 语言:主要为英语(en)
数据集结构
- 数据实例:
- 类型:帖子或评论
- 存储:帖子与评论分别存储在不同的文件中
- 数据字段:
- 通用字段:
- type: 数据点类型(post 或 comment)
- id: 数据点的Reddit ID(base-36)
- subreddit.id: 数据点所在子论坛的Reddit ID(base-36)
- subreddit.name: 数据点所在子论坛的人类可读名称
- subreddit.nsfw: 标记数据点所在子论坛是否为NSFW(是/否)
- created_utc: 数据点的UTC时间戳
- permalink: 数据点在Reddit上的链接
- score: 数据点在Reddit上的评分
- 帖子特定字段:
- domain: 帖子链接的域名
- url: 帖子链接的目标地址
- selftext: 帖子的自定义文本
- title: 帖子的标题
- 评论特定字段:
- body: 评论的内容
- sentiment: 评论的情感分析结果
- 通用字段:
数据集创建
- 源数据:原始数据
- 注释:由lexyr创建
- 语言创建者:众包
许可证信息
- 许可证:CC-BY 4.0



