five

SocialGrep/ten-million-reddit-answers

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/ten-million-reddit-answers
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一千万个问答对,标注了分数,并附带了一个基本情感预测器的结果。数据是从/r/AskReddit通过SocialGrep获取的。数据集主要包含英语内容,数据点分为帖子和评论两种类型,每种类型有不同的字段,如类型、ID、子版块ID、子版块名称、创建时间、链接、分数等。

This dataset contains 10 million question-answer pairs, each annotated with a score and accompanied by the results of a basic sentiment predictor. The data was collected from /r/AskReddit via SocialGrep. This dataset is primarily composed of English-language content, with its data points categorized into two types: posts and comments. Each type has distinct fields including type, ID, subreddit ID, subreddit name, creation time, URL, score, etc.
提供机构:
SocialGrep
原始信息汇总

数据集概述

数据集名称

  • 名称: ten-million-reddit-answers

数据集描述

  • 摘要: 该数据集包含一千万个问题-回答对,每个对都带有评分,并预先打包了一个基本情感预测器的结果。数据来源于/r/AskReddit,通过SocialGrep获取。
  • 语言: 主要为英语。

数据集结构

  • 数据实例: 数据点可以是帖子或评论,分别存储在不同的文件中。
  • 数据字段:
    • 对于帖子:
      • type: 数据点类型,post 或 comment。
      • id: 数据点的Reddit ID(base-36)。
      • subreddit.id: 数据点所在子版块的Reddit ID(base-36)。
      • subreddit.name: 数据点所在子版块的人类可读名称。
      • subreddit.nsfw: 标记数据点所在子版块是否为NSFW。
      • created_utc: 数据点的UTC创建时间戳。
      • permalink: 数据点在Reddit上的链接。
      • score: 数据点在Reddit上的评分。
      • domain: 数据点链接的域名。
      • url: 数据点链接的目标地址。
      • selftext: 数据点的自文本内容。
      • title: 帖子数据点的标题。
    • 对于评论:
      • body: 评论数据点的内容。
      • sentiment: 内部情感分析管道的结果。

数据集创建

  • 许可证: CC-BY v4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作