five

SocialGrep/one-million-reddit-questions

收藏
Hugging Face2022-07-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/one-million-reddit-questions
下载链接
链接失效反馈
官方服务:
资源简介:
该语料库包含一百万个来自/r/AskReddit的帖子,并标注了它们的分数。数据集主要包含Reddit帖子,每个数据点代表一个Reddit帖子。数据字段包括类型、ID、子论坛ID、子论坛名称、子论坛是否包含NSFW内容、创建时间、永久链接、分数、域名、URL、自文本和标题等。

This corpus comprises one million posts sourced from /r/AskReddit, with their respective scores annotated. This dataset primarily consists of Reddit posts, where each data point represents one Reddit post. The data fields include type, ID, subreddit ID, subreddit name, whether the subreddit contains NSFW content, creation timestamp, permalink, score, domain, URL, self-text, title, and so on.
提供机构:
SocialGrep
原始信息汇总

数据集概述

数据集基本信息

  • 名称: one-million-reddit-questions
  • 语言: 英语
  • 许可证: CC-BY 4.0
  • 多语言性: 单语种
  • 大小: 1M<n<10M
  • 来源: 原始数据

数据集描述

数据集摘要

  • 内容: 包含一百万条来自/r/AskReddit的帖子,并附有其评分。
  • 语言: 主要是英语。

数据集结构

数据实例

  • 类型: Reddit帖子。

数据字段

  • type: 数据点类型,可以是post或comment。
  • id: 数据点的base-36 Reddit ID,与类型结合时唯一。
  • subreddit.id: 数据点所属subreddit的base-36 Reddit ID,唯一。
  • subreddit.name: 数据点所属subreddit的人类可读名称。
  • subreddit.nsfw: 标记数据点所属subreddit是否为NSFW的布尔值。
  • created_utc: 数据点的UTC时间戳。
  • permalink: 数据点在Reddit上的引用链接。
  • score: 数据点在Reddit上的评分。
  • domain: 数据点链接的域名。
  • url: 数据点链接的目标地址(如果有)。
  • selftext: 数据点的自文本(如果有)。
  • title: 帖子数据点的标题。

数据集创建

许可证信息

  • 许可证: CC-BY v4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作