AITA Dataset

github2023-10-18 更新2024-05-31 收录

下载链接：

https://github.com/iterative/aita_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集基于r/AmItheAsshole/子论坛，包含了2018-2019年间约3万篇被排除的帖子，并已更新至最新版本。数据集文件`aita_clean.csv`包含9个特征，如帖子ID、创建时间、标题、正文、编辑时间、裁决结果、得分、评论数和是否为asshole等。

This dataset is based on the r/AmItheAsshole/ subreddit and includes approximately 30,000 excluded posts from 2018 to 2019, updated to the latest version. The dataset file `aita_clean.csv` contains 9 features, such as post ID, creation time, title, body, edit time, verdict, score, number of comments, and whether the post is considered an asshole.

创建时间：

2020-02-14

原始信息汇总

AITA Dataset 概述

数据集构建过程

0_scraper_push_api.py：收集指定时间范围内的Reddit帖子ID和分数。
1_scraper_praw.py：使用praw库通过ID查询每个帖子，并抓取相关文本和元数据。
2_clean_and_consolidate.py：清洗数据并进行整理。

数据集特征

数据集文件 aita_clean.csv 包含以下9个特征：

id：由Reddit API提供的唯一字符串，用于索引每个帖子。
timestamp：帖子创建的时间戳，采用Unix格式。
title：字符串。
body：字符串。
edited：帖子编辑的时间戳，如未编辑则为False。
verdict：字符串，取值为{"asshole", "not the asshole", "everyone sucks", "no assholes here"}。
score：整数，表示点赞和点踩的差值。
num_comments：整数，表示帖子评论总数（包括嵌套讨论）。
is_asshole：布尔值，表示裁决是否为{"asshole","everyone sucks"}。

数据集获取方式

通过DVC安装后，运行以下命令获取数据集：
- $ dvc get https://github.com/iterative/aita_dataset aita_clean.csv
- 或 $ dvc import https://github.com/iterative/aita_dataset aita_clean.csv 以同时下载相关的.dvc文件进行数据集版本控制。

搜集汇总

数据集介绍

构建方式

AITA数据集的构建过程分为三个主要步骤，首先通过`0_scraper_push_api.py`脚本从Reddit的r/AmItheAsshole子论坛中收集指定时间段内的帖子ID和评分。接着，使用`1_scraper_praw.py`脚本通过praw库查询每个帖子的详细信息，包括文本内容和元数据。最后，`2_clean_and_consolidate.py`脚本对数据进行清洗和整理，确保数据的准确性和一致性。这一过程确保了数据集的高质量和可用性。

使用方法

要使用AITA数据集，用户需要安装DVC（Data Version Control）工具，并通过命令行运行`dvc get`或`dvc import`命令来下载数据集。这些命令不仅能够获取数据集文件`aita_clean.csv`，还可以下载相关的.dvc文件，以便进行数据集的版本控制。这种方法简化了数据获取和管理的流程，使得研究人员可以更专注于数据分析本身，而无需担心数据的一致性和可追溯性问题。

背景与挑战

背景概述

AITA数据集是一个基于Reddit社区r/AmItheAsshole子论坛的文本数据集，旨在捕捉用户在该平台上发布的道德判断相关帖子。该数据集由Iterative团队于2020年创建，主要通过Reddit API收集帖子内容及其元数据，涵盖了2018年至2019年间的30,000余条帖子。数据集的核心研究问题聚焦于用户在社会互动中的道德判断模式，为心理学、社会学以及自然语言处理领域的研究提供了宝贵的资源。通过分析帖子的标题、正文、用户投票结果及评论，研究者能够深入探讨群体决策、道德认知以及在线社区行为等复杂问题。该数据集在相关领域的影响力逐渐显现，尤其是在道德判断与群体行为研究方面。

当前挑战

AITA数据集在构建与应用过程中面临多重挑战。首先，数据收集的完整性受到API限制的影响，部分帖子因技术原因未能及时纳入数据集，导致早期版本存在数据缺失问题。其次，文本数据的清洗与标注过程复杂，尤其是用户生成内容的多样性与非结构化特征增加了数据处理的难度。此外，道德判断的主观性使得标签（如‘asshole’或‘not the asshole’）的标准化与一致性成为难题，可能影响模型的训练效果。最后，数据集的动态更新与版本控制需要依赖DVC等工具，这对研究者的技术能力提出了较高要求。这些挑战不仅影响了数据集的构建效率，也对后续研究的可靠性与可重复性提出了更高的标准。

常用场景

经典使用场景

AITA数据集广泛应用于社交媒体行为分析领域，特别是在研究Reddit社区中的用户互动和道德判断模式。通过分析用户对‘我是不是混蛋’（Am I the Asshole）问题的回答，研究者能够深入探讨网络社区中的道德评判标准及其影响因素。

解决学术问题

该数据集为研究网络社区中的道德判断提供了丰富的数据支持，解决了如何量化用户道德评判的学术难题。通过分析用户的投票和评论，研究者能够揭示不同文化背景下的道德观念差异，进而推动网络道德心理学的发展。

实际应用

在实际应用中，AITA数据集被用于开发自动化道德评判系统，帮助社交媒体平台识别和过滤不当内容。此外，该数据集还被用于教育领域，帮助学生理解网络道德和伦理问题，提升其数字素养。

数据集最近研究