five

iDRAMALab/iDRAMA-scored-2024

收藏
Hugging Face2024-11-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/iDRAMALab/iDRAMA-scored-2024
下载链接
链接失效反馈
官方服务:
资源简介:
iDRAMA-Scored-2024是一个大规模的数据集,包含了来自社交媒体平台Scored上约5700万条帖子。Scored是Reddit的替代平台,主要托管一些被禁的边缘社区,例如c/TheDonald和c/GreatAwakening。该数据集涵盖了2020年至2023年间的950多个社区的帖子,并且每个帖子都附有句子嵌入。数据集按年份分为多个配置,包括2020年至2023年的评论和提交数据,每个配置包含多个特征,如uuid、score、created、community、raw_content等。

iDRAMA-Scored-2024 is a large-scale dataset containing approximately 57 million social media posts from the Scored platform. Scored serves as an alternative to Reddit, hosting banned fringe communities, such as c/TheDonald and c/GreatAwakening. The dataset includes posts from over 950 communities collected over four years (2020-2023) and provides sentence embeddings for all posts. The dataset is organized into yearly configurations for comments and submissions, each containing features such as uuid, score, created, community, raw_content, and more.
提供机构:
iDRAMALab
原始信息汇总

数据集概述

数据集名称

iDRAMA-Scored-2024

数据集内容

该数据集包含约5700万条来自Scored社交平台的网络社区帖子,涵盖超过950个社区,收集时间为四年,并包含所有帖子的句子嵌入。

数据集结构

数据集按年份和类型组织,包括以下配置:

  • comments-2020
  • comments-2021
  • comments-2022
  • comments-2023
  • submissions-2020-to-2023

每个配置包含的特征如下:

评论数据特征

  • uuid: 唯一标识符
  • score: 评分
  • created: 创建时间
  • score_up: 点赞数
  • community: 社区名称
  • is_deleted: 是否删除
  • score_down: 点踩数
  • raw_content: 原始内容
  • is_moderator: 是否为管理员
  • date: 日期
  • author: 作者
  • embedding: 嵌入向量

提交数据特征

  • link: 链接
  • type: 类型
  • uuid: 唯一标识符
  • score: 评分
  • title: 标题
  • domain: 域名
  • created: 创建时间
  • is_nsfw: 是否不适合工作环境
  • is_admin: 是否为管理员
  • is_image: 是否为图片
  • is_video: 是否为视频
  • score_up: 点赞数
  • tweet_id: 推特ID
  • community: 社区名称
  • is_deleted: 是否删除
  • is_twitter: 是否为推特链接
  • score_down: 点踩数
  • video_link: 视频链接
  • raw_content: 原始内容
  • is_moderator: 是否为管理员
  • post_flair_text: 帖子标签文本
  • post_flair_class: 帖子标签类别
  • date: 日期
  • author: 作者
  • embedding: 嵌入向量

数据集大小

  • comments-2020: 训练集包含12,774,203个样本,数据大小为31,046,054,383字节。
  • comments-2021: 训练集包含16,097,941个样本,数据大小为40,987,707,754字节。
  • comments-2022: 训练集包含12,730,301个样本,数据大小为40,428,423,985字节。
  • comments-2023: 训练集包含8,919,159个样本,数据大小为28,954,472,165字节。
  • submissions-2020-to-2023: 训练集包含6,293,980个样本,数据大小为17,187,529,594字节。

许可证

数据集遵循CC BY-NC-SA 4.0非商业许可协议。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作