SocialGrep/ten-million-reddit-answers

Name: SocialGrep/ten-million-reddit-answers
Creator: SocialGrep
Published: 2022-07-01 17:38:25
License: 暂无描述

Hugging Face2022-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SocialGrep/ten-million-reddit-answers

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一千万个问答对，标注了分数，并附带了一个基本情感预测器的结果。数据是从/r/AskReddit通过SocialGrep获取的。数据集主要包含英语内容，数据点分为帖子和评论两种类型，每种类型有不同的字段，如类型、ID、子版块ID、子版块名称、创建时间、链接、分数等。

This dataset contains 10 million question-answer pairs, each annotated with a score and accompanied by the results of a basic sentiment predictor. The data was collected from /r/AskReddit via SocialGrep. This dataset is primarily composed of English-language content, with its data points categorized into two types: posts and comments. Each type has distinct fields including type, ID, subreddit ID, subreddit name, creation time, URL, score, etc.

提供机构：

SocialGrep

原始信息汇总

数据集概述

数据集名称

名称: ten-million-reddit-answers

数据集描述

摘要: 该数据集包含一千万个问题-回答对，每个对都带有评分，并预先打包了一个基本情感预测器的结果。数据来源于/r/AskReddit，通过SocialGrep获取。
语言: 主要为英语。

数据集结构

数据实例: 数据点可以是帖子或评论，分别存储在不同的文件中。
数据字段:
- 对于帖子:
  - type: 数据点类型，post 或 comment。
  - id: 数据点的Reddit ID（base-36）。
  - subreddit.id: 数据点所在子版块的Reddit ID（base-36）。
  - subreddit.name: 数据点所在子版块的人类可读名称。
  - subreddit.nsfw: 标记数据点所在子版块是否为NSFW。
  - created_utc: 数据点的UTC创建时间戳。
  - permalink: 数据点在Reddit上的链接。
  - score: 数据点在Reddit上的评分。
  - domain: 数据点链接的域名。
  - url: 数据点链接的目标地址。
  - selftext: 数据点的自文本内容。
  - title: 帖子数据点的标题。
- 对于评论:
  - body: 评论数据点的内容。
  - sentiment: 内部情感分析管道的结果。

数据集创建

许可证: CC-BY v4.0

5,000+

优质数据集

54 个

任务类型

进入经典数据集