five

MattBoraske/Reddit-AITA-2018-to-2022

收藏
Hugging Face2024-06-11 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/MattBoraske/Reddit-AITA-2018-to-2022
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了提交的文本、标题、分数、URL、日期以及前10条评论的信息。每条评论都有一个AITA分类,表示评论是否与‘Am I the Asshole’(我是混蛋吗)相关。此外,数据集还包含了共识、毒性标签和毒性置信度分数等特征。数据集划分为训练集,包含29339个示例,总大小为159783929字节。

This dataset is primarily used for analyzing and classifying social media posts and their comments. It includes the text, title, score, URL, and date of the posts, as well as the top ten comments and their AITA classifications (classified by keywords). Additionally, the dataset provides consensus, toxicity labels, and toxicity confidence scores for further analysis and research. The dataset is divided into a training set, containing 29339 samples.
提供机构:
MattBoraske
原始信息汇总

数据集概述

数据集特征

  • submission_text:字符串类型
  • submission_title:字符串类型
  • submission_score:整数类型
  • submission_url:字符串类型
  • submission_date:字符串类型
  • top_comment_1top_comment_10:字符串类型
  • top_comment_1_AITA_class_by_keywordtop_comment_10_AITA_class_by_keyword:字符串类型

数据集分割

  • 训练集 (train)
    • 示例数量:26407
    • 数据大小:142871285.57745662 字节
  • 测试集 (test)
    • 示例数量:2932
    • 数据大小:15863165.422543373 字节

数据集大小

  • 下载大小:95849025 字节
  • 数据集总大小:158734451.0 字节

数据文件配置

  • 默认配置 (default)
    • 训练集路径:data/train-*
    • 测试集路径:data/test-*
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作