SocialGrep/one-million-reddit-confessions

Name: SocialGrep/one-million-reddit-confessions
Creator: SocialGrep
Published: 2022-07-01 18:48:52
License: 暂无描述

Hugging Face2022-07-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/SocialGrep/one-million-reddit-confessions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自以下Reddit子论坛的一百万个帖子：/r/trueoffmychest、/r/confession、/r/confessions和/r/offmychest。帖子主要使用英语，并标注了它们的得分。每个数据点是一个Reddit帖子，包含类型、ID、子论坛信息、创建时间、链接、得分等多个字段。

This dataset contains one million posts sourced from the following Reddit subreddits: /r/trueoffmychest, /r/confession, /r/confessions, and /r/offmychest. The majority of these posts are written in English, and their scores are annotated. Each data point is a Reddit post, containing multiple fields including post type, ID, subreddit information, creation time, link, score, and more.

提供机构：

SocialGrep

原始信息汇总

数据集概述

数据集基本信息

名称: one-million-reddit-confessions
语言: 英语
许可证: CC-BY 4.0
多语言性: 单语种
大小: 1M<n<10M
来源: 原始数据

数据集描述

数据集摘要

该数据集包含来自以下子论坛的一百万条帖子：

/r/trueoffmychest
/r/confession
/r/confessions
/r/offmychest

每条帖子都标注了其得分。

支持的任务

[未提供具体任务信息]

数据结构

数据实例

每个数据点是一个Reddit帖子。

数据字段

type: 数据点类型，可以是post或comment。
id: 数据点的Reddit base-36 ID，与类型组合时唯一。
subreddit.id: 数据点所在子论坛的Reddit base-36 ID，唯一。
subreddit.name: 数据点所在子论坛的人类可读名称。
subreddit.nsfw: 标记数据点所在子论坛是否为NSFW的布尔值。
created_utc: 数据点的UTC时间戳。
permalink: 数据点在Reddit上的链接。
score: 数据点在Reddit上的得分。
domain: 数据点链接的域名。
url: 数据点链接的目标地址（如果有）。
selftext: 数据点的自文本（如果有）。
title: 帖子数据点的标题。

数据集创建

采集理由

[未提供具体信息]

源数据

初始数据收集和标准化

[未提供具体信息]

源语言生产者

[未提供具体信息]

注释

注释过程

[未提供具体信息]

注释者

[未提供具体信息]

个人和敏感信息

[未提供具体信息]

使用数据集的考虑

数据集的社会影响

[未提供具体信息]

偏见讨论

[未提供具体信息]

其他已知限制

[未提供具体信息]

附加信息

数据集管理者

[未提供具体信息]

许可证信息

CC-BY v4.0

贡献

[未提供具体信息]

搜集汇总

数据集介绍

构建方式

在社交媒体文本挖掘领域，该数据集通过系统化采集Reddit平台上的用户生成内容构建而成。其核心来源聚焦于四个特定的子版块，包括/r/trueoffmychest、/r/confession等，这些版块以匿名倾诉为特色，天然汇集了大量具有情感表达与个人叙事性质的文本。数据收集过程依托平台公开接口，以自动化方式抓取帖子及其元数据，并依据时间戳与唯一标识符进行规范化处理，最终形成规模达百万级别的英文语料库。

特点

该数据集在社交媒体分析中展现出鲜明的结构特征与内容特质。每条数据实例均包含完整的元信息字段，如帖子类型、所属子版块、创建时间、永久链接及社区评分等，为多维度分析提供了丰富脉络。文本内容以用户自述形式呈现，涵盖广泛的生活经历与情感表达，具有较高的真实性与情境多样性。同时，数据标注了社区互动产生的评分，为衡量内容共鸣度或社会反馈提供了量化依据，使其在情感计算与社会行为研究中具备独特价值。

使用方法

在自然语言处理与社会计算研究中，该数据集可支持多种分析任务。研究者可直接通过HuggingFace平台加载数据，利用其结构化字段进行过滤、采样或聚合操作。典型应用包括情感分析、叙事结构挖掘、社区语言模式研究，以及结合评分数据的社会反馈建模。使用中需注意数据遵循CC-BY 4.0许可，并充分考虑其源自匿名平台的特性，在伦理层面规避个人敏感信息的使用，确保研究符合数据伦理规范。

背景与挑战

背景概述

在数字时代，社交媒体平台已成为人类情感表达与自我披露的重要场域，Reddit作为全球知名的匿名社区，其子论坛如/r/confession等汇聚了大量用户自发的忏悔与倾诉文本。SocialGrep机构于近年构建的‘百万Reddit忏悔’数据集，旨在系统收录来自四个主要忏悔类子论坛的百万条帖子，为核心研究问题——匿名在线环境下的情感语言模式、社会心理动态及内容影响力评估——提供大规模真实语料。该数据集通过标注帖子的社区评分，为计算社会科学、自然语言处理及心理学领域的实证研究奠定了数据基础，推动了在线行为分析与情感计算方法的交叉创新。

当前挑战

该数据集致力于应对匿名社交媒体文本情感分析与内容影响力预测的挑战，其核心在于从非结构化、高度个人化的叙述中提取可靠的语言特征与社会信号。构建过程中，数据采集面临匿名平台动态性与数据伦理的双重约束，需平衡大规模爬取与用户隐私保护；同时，文本内容涵盖敏感主题与非标准表达，增加了数据清洗与归一化的复杂性。此外，帖子评分作为唯一标注，可能引入社区投票偏差，限制了对情感极性或社会接受度等多维度任务的深入建模。

常用场景

经典使用场景

在自然语言处理与计算社会科学领域，SocialGrep/one-million-reddit-confessions数据集为研究者提供了丰富的匿名情感表达文本。该数据集汇集了来自Reddit平台上多个忏悔类子论坛的百万条帖子，其核心应用场景在于情感分析与心理语言学研究。通过分析这些自发性的匿名倾诉文本，学者能够深入探索人类在隐秘情境下的语言模式、情感强度及叙事结构，为理解在线自我披露行为提供了宝贵的语料基础。

解决学术问题

该数据集有效解决了匿名社交媒体文本挖掘中的若干关键学术问题。首先，它助力于克服传统情感分析中因语境缺失或表达隐晦导致的精度局限，通过大规模真实忏悔数据提升模型对复杂情感的识别能力。其次，数据集支持对在线自我披露动机、社会支持寻求行为及心理健康相关语言标记的量化研究，为计算心理学与数字人文领域提供了实证基础。其意义在于架起了自然语言处理技术与社会科学理论之间的桥梁，推动了跨学科方法论的发展。

衍生相关工作

围绕该数据集已衍生出多项经典研究工作。在情感计算方向，部分研究利用其训练细粒度情感分类器，区分羞愧、内疚、释然等复杂道德情感。在计算社会科学领域，学者通过分析忏悔帖子的语言特征与社区反馈（评分），探究在线匿名披露的社会动力学机制。另有工作结合该数据集与心理学量表，开发了用于评估文本中心理困扰程度的计算模型。这些研究共同深化了对在线忏悔现象的理解，并推动了基于社交媒体的心理语言学分析范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集