Shunian/kaggle-mbti-cleaned-augmented
收藏Hugging Face2022-12-16 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Shunian/kaggle-mbti-cleaned-augmented
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是基于Shunian/kaggle-mbti-cleaned数据集构建的,旨在解决样本不平衡问题。通过使用Parrot Paraphraser和NLP AUG工具,训练数据中的一些偏斜问题得到了解决,使得训练样本从328,660个增加到478,389个。数据集包含两个特征:label(int64类型)和text(string类型),并分为train和test两个部分,分别包含478,389和81,957个样本。
提供机构:
Shunian
原始信息汇总
数据集概述
数据集名称
- 名称: kaggle-mbti-cleaned-augmented
数据集特征
- 特征1: label
- 数据类型: int64
- 特征2: text
- 数据类型: string
数据集分割
- 训练集:
- 样本数: 478,389
- 数据大小: 74,489,242 bytes
- 测试集:
- 样本数: 81,957
- 数据大小: 12,922,409 bytes
数据集大小
- 下载大小: 56,815,784 bytes
- 总数据大小: 87,411,651 bytes



