five

SocialGrep/the-reddit-irl-dataset

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/the-reddit-irl-dataset
下载链接
链接失效反馈
官方服务:
资源简介:
the-reddit-irl-dataset数据集主要包含来自幽默子版块/r/meirl和/r/me_irl的帖子和评论数据,数据截止到2022年4月1日。数据集的结构包括数据实例、数据字段和数据分割。数据实例分为帖子和评论,数据字段包括类型、ID、子版块信息、创建时间、链接、分数等。数据集的语言主要是英语,许可证为CC-BY v4.0。

The dataset named the-reddit-irl-dataset primarily contains post and comment data sourced from the humor-focused subreddits /r/meirl and /r/me_irl, with all data available up to April 1, 2022. The structure of this dataset includes three components: data instances, data fields, and data splits. Data instances are divided into two categories: posts and comments, while the data fields cover type, ID, subreddit information, creation timestamp, hyperlink, score, and other relevant attributes. The dataset is primarily in English and is licensed under CC-BY v4.0.
提供机构:
SocialGrep
原始信息汇总

数据集概述

数据集名称

  • 名称: the-reddit-irl-dataset

数据集摘要

  • 摘要: 数据来自幽默子版块 /r/meirl 和 /r/me_irl,截至2022年4月1日。

语言

  • 主要语言: 英语

数据集结构

数据实例
  • 描述: 数据点包括帖子和评论,分别存储在不同的文件中。
数据字段
  • 类型: 帖子和评论共有的字段包括:

    • type: 数据点类型,可以是 post 或 comment。
    • id: 数据点的 Reddit 基础36进制ID。
    • subreddit.id: 数据点所在子版块的 Reddit 基础36进制ID。
    • subreddit.name: 数据点所在子版块的人类可读名称。
    • subreddit.nsfw: 标记数据点所在子版块是否为 NSFW。
    • created_utc: 数据点的 UTC 时间戳。
    • permalink: 数据点在 Reddit 上的链接。
    • score: 数据点在 Reddit 上的得分。
  • 帖子特有的字段:

    • domain: 数据点链接的域名。
    • url: 数据点链接的目标地址。
    • selftext: 数据点的自文本内容。
    • title: 帖子数据点的标题。
  • 评论特有的字段:

    • body: 评论数据点的内容。
    • sentiment: 内部情感分析管道的分析结果,用于探索性分析。

许可证信息

  • 许可证: CC-BY v4.0
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作