iDRAMALab/iDRAMA-scored-2024
收藏Hugging Face2024-11-05 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/iDRAMALab/iDRAMA-scored-2024
下载链接
链接失效反馈官方服务:
资源简介:
iDRAMA-Scored-2024是一个大规模的数据集,包含了来自社交媒体平台Scored上约5700万条帖子。Scored是Reddit的替代平台,主要托管一些被禁的边缘社区,例如c/TheDonald和c/GreatAwakening。该数据集涵盖了2020年至2023年间的950多个社区的帖子,并且每个帖子都附有句子嵌入。数据集按年份分为多个配置,包括2020年至2023年的评论和提交数据,每个配置包含多个特征,如uuid、score、created、community、raw_content等。
iDRAMA-Scored-2024 is a large-scale dataset containing approximately 57 million social media posts from the Scored platform. Scored serves as an alternative to Reddit, hosting banned fringe communities, such as c/TheDonald and c/GreatAwakening. The dataset includes posts from over 950 communities collected over four years (2020-2023) and provides sentence embeddings for all posts. The dataset is organized into yearly configurations for comments and submissions, each containing features such as uuid, score, created, community, raw_content, and more.
提供机构:
iDRAMALab
原始信息汇总
数据集概述
数据集名称
iDRAMA-Scored-2024
数据集内容
该数据集包含约5700万条来自Scored社交平台的网络社区帖子,涵盖超过950个社区,收集时间为四年,并包含所有帖子的句子嵌入。
数据集结构
数据集按年份和类型组织,包括以下配置:
comments-2020comments-2021comments-2022comments-2023submissions-2020-to-2023
每个配置包含的特征如下:
评论数据特征
uuid: 唯一标识符score: 评分created: 创建时间score_up: 点赞数community: 社区名称is_deleted: 是否删除score_down: 点踩数raw_content: 原始内容is_moderator: 是否为管理员date: 日期author: 作者embedding: 嵌入向量
提交数据特征
link: 链接type: 类型uuid: 唯一标识符score: 评分title: 标题domain: 域名created: 创建时间is_nsfw: 是否不适合工作环境is_admin: 是否为管理员is_image: 是否为图片is_video: 是否为视频score_up: 点赞数tweet_id: 推特IDcommunity: 社区名称is_deleted: 是否删除is_twitter: 是否为推特链接score_down: 点踩数video_link: 视频链接raw_content: 原始内容is_moderator: 是否为管理员post_flair_text: 帖子标签文本post_flair_class: 帖子标签类别date: 日期author: 作者embedding: 嵌入向量
数据集大小
comments-2020: 训练集包含12,774,203个样本,数据大小为31,046,054,383字节。comments-2021: 训练集包含16,097,941个样本,数据大小为40,987,707,754字节。comments-2022: 训练集包含12,730,301个样本,数据大小为40,428,423,985字节。comments-2023: 训练集包含8,919,159个样本,数据大小为28,954,472,165字节。submissions-2020-to-2023: 训练集包含6,293,980个样本,数据大小为17,187,529,594字节。
许可证
数据集遵循CC BY-NC-SA 4.0非商业许可协议。



