OsamaBsher/AITA-Reddit-Dataset

Name: OsamaBsher/AITA-Reddit-Dataset
Creator: OsamaBsher
Published: 2023-11-01 22:19:37
License: 暂无描述

Hugging Face2023-11-01 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/OsamaBsher/AITA-Reddit-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含来自Reddit的AITA子论坛的帖子及其两个最高投票的评论，这些评论分享了帖子的裁决。数据集的时间跨度从2013年到2023年4月，共包含270,709个条目，每个条目包括帖子标题、文本、裁决、两个评论和点赞数。

This dataset contains posts from the AITA subreddit on Reddit, paired with their two most upvoted comments that provide the verdict for each post. Spanning from 2013 to April 2023, it includes a total of 270,709 entries. Each entry consists of the post title, post body, verdict, two comments, and the upvote count.

提供机构：

OsamaBsher

原始信息汇总

数据集卡片：AITA Reddit帖子和评论

数据集详情

数据集内容

数据集大小：270,709条记录
每条记录包含：
- 帖子标题
- 帖子文本
- 判决结果
- 评论1
- 评论2
- 分数（点赞数）

数据集来源

数据提取工具：Reddit PushShift
数据时间范围：2013年至2023年4月

数据集作者

@OsamaBsher
Ameer Sabri

数据集联系人

@OsamaBsher

搜集汇总

数据集介绍

构建方式

在社交媒体文本挖掘领域，OsamaBsher/AITA-Reddit-Dataset的构建体现了系统化数据采集的严谨性。该数据集源自Reddit的AITA（Am I the Asshole）子论坛，通过REDDIT PushShift工具，系统性地抓取了自2013年至2023年4月间的用户发帖及互动内容。构建过程聚焦于提取每个帖子的标题、正文、社区裁决结果，并精选出两条获得最高赞同票数的评论，这些评论均明确表达了与帖子裁决一致的立场。最终，数据集整合了270,709条完整条目，每条均包含结构化字段，确保了数据的一致性与可分析性。

特点

该数据集的核心特征在于其聚焦于道德判断与社交互动的文本内容。所有数据均来源于AITA子论坛，这是一个用户分享个人道德困境并寻求社区评判的独特空间，因而数据天然富含伦理讨论与观点交锋。数据集不仅收录了原始发帖，还精心选取了最具代表性的两条高票赞同评论，这些评论直接呼应了帖子的裁决结果，从而形成了“问题-裁决-论证”的完整对话链条。此外，每条记录均附有帖子获得的赞同票数（score），为衡量社区共识强度提供了量化指标。其规模达到数十万条，为训练大规模语言模型或进行深入的分类研究提供了充足语料。

使用方法

在自然语言处理的应用场景中，该数据集为文本生成与分类任务提供了宝贵的资源。研究者可将其用于训练模型进行道德推理模拟，即根据事件描述生成或预测社区可能的道德评判。在文本分类方面，数据集清晰的裁决标签（verdict）使其非常适合作为监督学习数据，用以构建自动化的道德立场分类器。使用前，建议用户依据相关论文（arXiv:2310.18336）深入了解数据采集与处理的细节。实践中，可直接利用Hugging Face平台加载数据集，通过其提供的标题、正文、评论及分数等字段，灵活地设计下游任务，例如观点总结、论据质量分析或社区反馈模式研究。

背景与挑战

背景概述

随着社交媒体平台的兴起，用户生成内容已成为自然语言处理研究的重要资源。OsamaBsher/AITA-Reddit-Dataset数据集由研究人员OsamaBsher和Ameer Sabri于2023年构建，基于Reddit的PushShift数据转储，涵盖了2013年至2023年间的数据。该数据集聚焦于Reddit的AITA（Am I the Asshole）子版块，旨在通过帖子标题、文本、裁决及高票评论，探索道德判断与社交互动中的语言模式。其核心研究问题涉及文本生成与分类任务，特别是道德推理和社区反馈的自动化分析，为情感计算和社会心理学领域提供了丰富的实证基础，推动了在线行为研究的深入发展。

当前挑战

该数据集旨在解决道德判断分类和社交互动文本生成的领域挑战，包括从非结构化用户内容中提取一致道德标签的复杂性，以及处理语言多样性和主观性带来的噪声。在构建过程中，研究人员面临数据采集的挑战，如Reddit PushShift数据转储的规模庞大和时效性限制，需确保数据覆盖的完整性与准确性。此外，整合帖子与高票评论的裁决信息，要求处理数据对齐和验证问题，以避免偏差并维护数据质量，这些挑战共同凸显了社交媒体数据集在真实世界应用中的技术难点。

常用场景

经典使用场景

在自然语言处理领域，AITA-Reddit-Dataset作为一个大规模文本数据集，其经典使用场景集中于道德推理与情感分析研究。该数据集源自Reddit的“Am I the Asshole”社区，收录了用户分享的日常道德困境叙述及社区投票裁决，为研究者提供了丰富的语境化道德判断实例。通过分析帖子内容与评论反馈，学者能够深入探索人类道德决策的语言模式，进而训练模型进行自动化道德评估或情感极性分类，这在计算社会科学与人工智能伦理研究中具有重要价值。

衍生相关工作

围绕AITA数据集衍生的经典工作主要集中在道德图谱构建与生成式模型微调。例如，研究者利用该数据集训练BERT变体进行道德立场分类，或结合图神经网络分析道德论证结构。部分工作进一步提取道德叙事模板，用于生成可控的道德困境文本。这些研究不仅深化了对道德语言计算表征的理解，还催生了如MoralBERT等专用模型，推动了可解释AI在伦理敏感场景中的应用，为后续跨平台道德数据整合奠定了基础。

数据集最近研究