five

jeanong2/AITA-datasets

收藏
Hugging Face2024-04-21 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/jeanong2/AITA-datasets
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是作为新加坡国立大学CS5246课程项目的一部分开发的。数据集最初从Reddit处理而来,被转化为一个二分类任务,并通过从公开可用的数据集中获取额外样本来解决数据集不平衡的问题。训练集包含10,872个样本,其中5,134个样本被标记为‘道德上无错’,5,738个样本被标记为‘道德上有错’。测试集包含6,000个样本,其中5,000个样本被标记为‘道德上无错’,1,000个样本被标记为‘道德上有错’。

该数据集是作为新加坡国立大学CS5246课程项目的一部分开发的。数据集最初从Reddit处理而来,被转化为一个二分类任务,并通过从公开可用的数据集中获取额外样本来解决数据集不平衡的问题。训练集包含10,872个样本,其中5,134个样本被标记为‘道德上无错’,5,738个样本被标记为‘道德上有错’。测试集包含6,000个样本,其中5,000个样本被标记为‘道德上无错’,1,000个样本被标记为‘道德上有错’。
提供机构:
jeanong2
原始信息汇总

数据集描述

该数据集是为了参与新加坡国立大学在2023/24学年第二学期的CS5246课程项目而开发的。我们最初从Reddit处理数据,将其转化为二分类任务,并通过从公开可用的数据集中获取额外样本来解决数据集不平衡问题。

数据集细分

  • 训练集:包含10,872个样本,其中5,134个样本标记为not morally wrong,5,738个样本标记为morally wrong,实现了平衡。
  • 测试集:包含6,000个样本,其中5,000个样本标记为not morally wrong,1,000个样本标记为morally wrong。

小组成员

  • Kiat Hui Khang @hkkiat
  • Lee Ming Xuan @lmngxn
  • Jean Ong Hui Fang @jeanong2
  • Venessa Tan @vennietweek
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作