SocialGrep/ten-million-reddit-answers
收藏Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/ten-million-reddit-answers
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一千万个问答对,标注了分数,并附带了一个基本情感预测器的结果。数据是从/r/AskReddit通过SocialGrep获取的。数据集主要包含英语内容,数据点分为帖子和评论两种类型,每种类型有不同的字段,如类型、ID、子版块ID、子版块名称、创建时间、链接、分数等。
This dataset contains 10 million question-answer pairs, each annotated with a score and accompanied by the results of a basic sentiment predictor. The data was collected from /r/AskReddit via SocialGrep. This dataset is primarily composed of English-language content, with its data points categorized into two types: posts and comments. Each type has distinct fields including type, ID, subreddit ID, subreddit name, creation time, URL, score, etc.
提供机构:
SocialGrep
原始信息汇总
数据集概述
数据集名称
- 名称: ten-million-reddit-answers
数据集描述
- 摘要: 该数据集包含一千万个问题-回答对,每个对都带有评分,并预先打包了一个基本情感预测器的结果。数据来源于/r/AskReddit,通过SocialGrep获取。
- 语言: 主要为英语。
数据集结构
- 数据实例: 数据点可以是帖子或评论,分别存储在不同的文件中。
- 数据字段:
- 对于帖子:
- type: 数据点类型,post 或 comment。
- id: 数据点的Reddit ID(base-36)。
- subreddit.id: 数据点所在子版块的Reddit ID(base-36)。
- subreddit.name: 数据点所在子版块的人类可读名称。
- subreddit.nsfw: 标记数据点所在子版块是否为NSFW。
- created_utc: 数据点的UTC创建时间戳。
- permalink: 数据点在Reddit上的链接。
- score: 数据点在Reddit上的评分。
- domain: 数据点链接的域名。
- url: 数据点链接的目标地址。
- selftext: 数据点的自文本内容。
- title: 帖子数据点的标题。
- 对于评论:
- body: 评论数据点的内容。
- sentiment: 内部情感分析管道的结果。
- 对于帖子:
数据集创建
- 许可证: CC-BY v4.0



