wttdotm/AYTA_Datasets

Name: wttdotm/AYTA_Datasets
Creator: wttdotm
Published: 2023-03-15 16:05:12
License: 暂无描述

Hugging Face2023-03-15 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/wttdotm/AYTA_Datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Are You The Asshole Training Data，用于展示AI因数据偏差而产生的偏见。数据集包含来自Reddit的r/AmITheAsshole子论坛的帖子和评论对，经过过滤仅保留以明确缩写判断开头的评论，并分为中性、YTA（你是混蛋）和NTA（你不是混蛋）三个子集。这些数据通过微调GPT-3 Davinci-002模型生成，用于一个名为AreYouTheAsshole.com的项目。

提供机构：

wttdotm

原始信息汇总

Are You The Asshole Training Data 数据集概述

数据集内容

Neutral_Dataset.jsonl: 包含所有清晰的判断（YTA, NTA等）。
YTA_Dataset.jsonl: 仅包含判断为YTA或类似的记录。
NTA_Dataset.jsonl: 仅包含判断为NTA或类似的记录。

数据集来源

数据来源于Reddit的r/AmITheAsshole subreddit，通过PMAW/PRAW和Reddit API收集。

数据筛选过程

原始数据包含超过100,000个帖子/评论对。
经过筛选，保留了评论以清晰的首字母缩写判断开始的记录。
筛选后的数据用于训练三个GPT-3 Davinci-002模型，以展示数据偏差对AI的影响。

5,000+

优质数据集

54 个

任务类型

进入经典数据集