five

SocialGrep/reddit-crypto-aug-2021

收藏
Hugging Face2022-07-01 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/SocialGrep/reddit-crypto-aug-2021
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了2021年8月在多个加密货币相关Reddit子论坛上的完整活动数据,包括帖子和评论。数据集的字段包括类型、ID、子论坛信息、创建时间、链接、分数等。数据集主要用于自然语言处理任务,如情感分析。数据集的创建过程、注释过程、社会影响等方面的信息尚未提供。
提供机构:
SocialGrep
原始信息汇总

数据集概述

基本信息

  • 数据集名称: reddit-crypto-aug-2021
  • 语言: 英语
  • 许可证: CC-BY 4.0
  • 多语言性: 单语种
  • 大小分类: 1M<n<10M
  • 数据来源: 原始数据

数据集描述

数据集总结

  • 内容: 包含2021年8月期间,以下Reddit子论坛的完整活动数据:
    • /r/cryptocurrency
    • /r/cryptocurrencyclassic
    • /r/cryptocurrencyico
    • /r/cryptomars
    • /r/cryptomoon
    • /r/cryptomoonshots
    • /r/satoshistreetbets

语言

  • 主要语言: 英语

数据集结构

数据实例

  • 类型: 帖子或评论
  • 文件: 帖子与评论分别存储在不同文件中

数据字段

  • 通用字段:

    • type: 数据点类型(post 或 comment)
    • id: 数据点的基础-36 Reddit ID
    • subreddit.id: 数据点所在子论坛的基础-36 Reddit ID
    • subreddit.name: 数据点所在子论坛的人类可读名称
    • subreddit.nsfw: 标记数据点所在子论坛是否为NSFW
    • created_utc: 数据点的UTC时间戳
    • permalink: 数据点在Reddit上的链接
    • score: 数据点在Reddit上的评分
  • 帖子特定字段:

    • domain: 帖子链接的域名
    • url: 帖子链接的目标地址
    • selftext: 帖子的自文本内容
    • title: 帖子的标题
  • 评论特定字段:

    • body: 评论的主体内容
    • sentiment: 评论的情感分析结果

数据集创建

许可证信息

  • 许可证: CC-BY v4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作