mbti-emotion

Hugging Face2026-02-10 更新2026-02-11 收录

下载链接：

https://huggingface.co/datasets/anggars/mbti-emotion

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含161,979个训练样本，总大小为62,973,581字节。数据集包含五个主要字段：MBTI（字符串类型，可能表示迈尔斯-布里格斯性格类型指标）、Emotion（字符串类型，可能表示情绪状态）、Language（字符串类型，表示语言）、Style（字符串类型，可能表示文本风格）和Text（字符串类型，表示实际文本内容）。数据集支持英语和印度尼西亚语。由于包含MBTI和Emotion等心理学相关字段，该数据集可能适用于性格分析、情绪识别或行为预测等自然语言处理任务。

创建时间：

2026-02-09

原始信息汇总

MBTI-Emotion 数据集概述

数据集基本信息

数据集名称： MBTI-Emotion
发布平台： Hugging Face Datasets
数据集地址： https://huggingface.co/datasets/anggars/mbti-emotion

数据集内容与结构

数据字段（Features）

数据集包含以下5个字段：

MBTI：字符串类型，表示迈尔斯-布里格斯类型指标人格类型。
Emotion：字符串类型，表示情感标签。
Language：字符串类型，表示文本的语言。
Style：字符串类型，表示文本风格。
Text：字符串类型，表示文本内容。

数据划分（Splits）

数据集仅包含一个数据划分：

训练集（train）
- 样本数量：115,251 条
- 数据集大小：40,672,982 字节
- 下载文件大小：24,483,931 字节

技术细节

配置文件：默认配置名为 default。
数据文件：训练集数据文件路径模式为 data/train-*。
支持语言：英语（en）、印度尼西亚语（id）。

搜集汇总

数据集介绍

构建方式

在人格心理学与情感计算交叉领域，mbti-emotion数据集通过系统化采集与标注构建而成。该数据集整合了多语言文本资源，涵盖英语与印尼语两种语言环境，确保了跨文化背景下的数据多样性。构建过程中，每条文本均依据迈尔斯-布里格斯类型指标（MBTI）的人格分类和基础情感标签进行双重标注，并额外记录了文本的语言类型与风格特征，形成了结构化的五维特征框架。这种多维度标注策略为研究人格特质与情感表达的关联提供了扎实的数据基础。

特点

mbti-emotion数据集的核心特点在于其多维度的标注体系与跨语言覆盖。数据集不仅包含传统的情感分类标签，还创新性地引入了MBTI人格类型指标，使得研究者能够深入探索人格维度与情感表达模式之间的潜在联系。数据条目同时标注了文本所使用的语言及风格特征，增强了数据在跨文化比较和文体分析中的应用价值。超过11万条训练样本的规模，为模型训练与验证提供了充足的实例支持，兼顾了数据的广度与深度。

使用方法

该数据集适用于人格计算、情感分析及跨语言自然语言处理等多个研究方向。使用者可直接加载训练集进行模型开发，例如训练能够同时预测文本情感倾向和推断作者人格特质的联合学习模型。由于数据已结构化存储，研究人员可便捷地依据MBTI类型、情感标签或语言类别对数据进行筛选与分析，以验证特定假设。在应用时，需注意数据中英语与印尼语的分布差异，以确保模型在多语言场景下的泛化能力与公平性评估。

背景与挑战

背景概述

MBTI-Emotion数据集聚焦于心理学与自然语言处理的交叉领域，旨在探索人格类型与情感表达之间的复杂关联。该数据集由研究团队于近年构建，整合了迈尔斯-布里格斯类型指标（MBTI）人格分类与情感标签，核心研究问题在于解析不同人格特质在文本中如何映射到特定情感状态，从而推动个性化情感计算与心理健康分析的发展。其多语言特性进一步拓展了跨文化心理语言学的应用边界，为行为科学与人工智能的融合提供了实证基础。

当前挑战

该数据集首要挑战在于解决人格与情感多维度标注的模糊性问题，MBTI类型与情感类别均存在主观解释空间，需确保标注的一致性与心理学有效性。构建过程中，数据采集面临跨语言文本的平衡与代表性难题，尤其在处理英语与印尼语等多样语言时，文化差异可能导致情感表达模式的偏差。此外，文本风格与人格特征的隐含关联难以精确量化，要求标注框架兼具理论严谨性与实际可操作性，以支撑可靠的计算模型训练。

常用场景

经典使用场景

在心理学与计算语言学交叉领域，mbti-emotion数据集为研究者提供了探索人格特质与情感表达之间复杂关联的宝贵资源。该数据集整合了MBTI人格类型与情感标签，常用于训练机器学习模型以分析文本中隐含的人格特征和情感状态，例如通过自然语言处理技术预测作者的MBTI类型或识别情感倾向，从而深化对个体心理与语言行为交互机制的理解。

解决学术问题

该数据集有效解决了人格心理学与情感计算中的关键问题，如人格特质的自动化识别与情感分类的细粒度分析。通过提供大规模标注数据，它支持构建更精准的预测模型，弥补了传统研究中数据稀缺的局限，推动了跨文化情感表达与人格差异的实证研究，为理解人类行为多样性提供了数据驱动的科学依据。

衍生相关工作

围绕该数据集，学术界衍生出多项经典研究，包括基于深度学习的MBTI人格预测模型、多语言情感分析框架以及人格与情感关联的跨文化比较研究。这些工作进一步拓展了数据集的潜力，促进了心理学理论与人工智能技术的融合，为后续探索人格计算与情感智能的前沿领域奠定了坚实基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集