Shunian/kaggle-mbti-cleaned

Name: Shunian/kaggle-mbti-cleaned
Creator: Shunian
Published: 2022-12-16 09:46:54
License: 暂无描述

Hugging Face2022-12-16 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Shunian/kaggle-mbti-cleaned

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集源自Kaggle的MBTI Myers-Briggs Personality Type Dataset，并经过清洗以便用于文本分类过程。数据集包含标签和文本两个特征，分为训练集和测试集，训练集包含327,828个样本，测试集包含81,957个样本。

This dataset is sourced from the MBTI Myers-Briggs Personality Type Dataset on Kaggle, and has been cleaned for text classification tasks. It contains two features: label and text, and is divided into training and test sets, with 327,828 samples in the training set and 81,957 samples in the test set.

提供机构：

Shunian

原始信息汇总

数据集概述

数据集名称

名称: kaggle-mbti-cleaned

数据集特征

特征1: label
- 数据类型: int64
特征2: text
- 数据类型: string

数据集分割

训练集:
- 样本数: 327828
- 存储大小: 51657719 字节
测试集:
- 样本数: 81957
- 存储大小: 12922409 字节

数据集大小

下载大小: 42682844 字节
总数据集大小: 64580128 字节

搜集汇总

数据集介绍

构建方式

在人格心理学与计算语言学交叉领域，Shunian/kaggle-mbti-cleaned数据集源于Kaggle平台的原始MBTI人格类型数据。该数据集经过系统清洗与重构，将非结构化文本转化为适用于分类任务的规范格式。构建过程中，原始文本被去除冗余信息并标准化处理，同时人格类型标签被映射为数值编码，最终形成包含训练集与测试集的平衡划分，确保了数据的一致性与机器学习流程的兼容性。

特点

该数据集以文本分类为核心特点，囊括超过40万条标注样本，每条记录均包含人格类型标签及对应的用户生成文本。其文本内容源自真实社交平台，反映了多样化的语言风格与表达模式，为研究人格特质与语言特征关联提供了丰富素材。数据集结构清晰，特征字段简洁，支持大规模自然语言处理模型的训练与评估，在人格计算领域具有较高的实用价值。

使用方法

使用者可通过HuggingFace平台直接加载该数据集，并利用其预分割的训练集与测试集进行人格类型分类模型的开发。在应用时，建议先对文本数据进行分词或嵌入表示，结合标签的数值编码构建分类器。该数据集适用于监督学习框架，能够支持从传统机器学习到深度神经网络等多种算法验证，为探索人格预测与语言分析提供了即用型实验基础。

背景与挑战

背景概述

在心理学与计算社会科学交叉领域，人格特质分析一直是研究热点，旨在通过语言行为揭示个体心理特征。Shunian/kaggle-mbti-cleaned数据集基于Kaggle平台原始数据，由研究团队进行清洗与重构，发布于2023年左右，专注于迈尔斯-布里格斯类型指标（MBTI）的人格分类任务。该数据集通过文本分类方法，探索语言表达与十六种人格类型的关联，为个性化推荐、心理健康评估等应用提供数据基础，推动了自然语言处理与心理计算的融合研究。

当前挑战

该数据集的核心挑战在于人格分类任务的固有复杂性：MBTI模型本身在心理学界存在争议，其类型划分可能过于简化人格的连续谱系，导致分类边界模糊，影响模型泛化能力。在构建过程中，数据清洗面临原始文本噪声大、标签不平衡以及文化偏见等问题，例如网络论坛来源的文本包含非正式表达与冗余信息，需通过精细预处理确保数据质量，同时保持人格表征的客观性。

常用场景

经典使用场景

在心理学与计算社会科学交叉领域，人格特质分析一直是研究热点。Shunian/kaggle-mbti-cleaned数据集以其清洗后的文本与标签结构，为基于机器学习的MBTI人格分类任务提供了经典应用场景。该数据集常用于训练文本分类模型，通过分析用户在社交媒体或论坛中的语言表达，自动识别其潜在的迈尔斯-布里格斯人格类型，从而探索语言模式与人格特质之间的关联性。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在人格预测算法的优化与跨领域应用拓展上。例如，研究者利用深度学习模型（如BERT或LSTM）提升MBTI分类的准确率，并探索人格特质与情感分析、虚假信息检测等任务的关联。这些工作不仅丰富了计算人格学的方法论体系，还促进了开源工具与基准测试平台的建立，为后续研究提供了重要参考与基础。

数据集最近研究