iDRAMALab/iDRAMA-scored-2024

Name: iDRAMALab/iDRAMA-scored-2024
Creator: iDRAMALab
Published: 2024-11-05 14:57:44
License: 暂无描述

Hugging Face2024-11-05 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/iDRAMALab/iDRAMA-scored-2024

下载链接

链接失效反馈

官方服务：

资源简介：

iDRAMA-Scored-2024是一个大规模的数据集，包含了来自社交媒体平台Scored上约5700万条帖子。Scored是Reddit的替代平台，主要托管一些被禁的边缘社区，例如c/TheDonald和c/GreatAwakening。该数据集涵盖了2020年至2023年间的950多个社区的帖子，并且每个帖子都附有句子嵌入。数据集按年份分为多个配置，包括2020年至2023年的评论和提交数据，每个配置包含多个特征，如uuid、score、created、community、raw_content等。

iDRAMA-Scored-2024 is a large-scale dataset containing approximately 57 million social media posts from the Scored platform. Scored serves as an alternative to Reddit, hosting banned fringe communities, such as c/TheDonald and c/GreatAwakening. The dataset includes posts from over 950 communities collected over four years (2020-2023) and provides sentence embeddings for all posts. The dataset is organized into yearly configurations for comments and submissions, each containing features such as uuid, score, created, community, raw_content, and more.

提供机构：

iDRAMALab

原始信息汇总

数据集概述

数据集名称

iDRAMA-Scored-2024

数据集内容

该数据集包含约5700万条来自Scored社交平台的网络社区帖子，涵盖超过950个社区，收集时间为四年，并包含所有帖子的句子嵌入。

数据集结构

数据集按年份和类型组织，包括以下配置：

comments-2020
comments-2021
comments-2022
comments-2023
submissions-2020-to-2023

每个配置包含的特征如下：

评论数据特征

uuid: 唯一标识符
score: 评分
created: 创建时间
score_up: 点赞数
community: 社区名称
is_deleted: 是否删除
score_down: 点踩数
raw_content: 原始内容
is_moderator: 是否为管理员
date: 日期
author: 作者
embedding: 嵌入向量

提交数据特征

link: 链接
type: 类型
uuid: 唯一标识符
score: 评分
title: 标题
domain: 域名
created: 创建时间
is_nsfw: 是否不适合工作环境
is_admin: 是否为管理员
is_image: 是否为图片
is_video: 是否为视频
score_up: 点赞数
tweet_id: 推特ID
community: 社区名称
is_deleted: 是否删除
is_twitter: 是否为推特链接
score_down: 点踩数
video_link: 视频链接
raw_content: 原始内容
is_moderator: 是否为管理员
post_flair_text: 帖子标签文本
post_flair_class: 帖子标签类别
date: 日期
author: 作者
embedding: 嵌入向量

数据集大小

comments-2020: 训练集包含12,774,203个样本，数据大小为31,046,054,383字节。
comments-2021: 训练集包含16,097,941个样本，数据大小为40,987,707,754字节。
comments-2022: 训练集包含12,730,301个样本，数据大小为40,428,423,985字节。
comments-2023: 训练集包含8,919,159个样本，数据大小为28,954,472,165字节。
submissions-2020-to-2023: 训练集包含6,293,980个样本，数据大小为17,187,529,594字节。

许可证

数据集遵循CC BY-NC-SA 4.0非商业许可协议。

5,000+

优质数据集

54 个

任务类型

进入经典数据集