DrinkIcedT/dailydialog_mbti_labeled
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/DrinkIcedT/dailydialog_mbti_labeled
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: idx
dtype: int64
- name: person
dtype: large_string
- name: post
dtype: large_string
- name: label
dtype: large_string
- name: prob_I
dtype: float64
- name: prob_N
dtype: float64
- name: prob_F
dtype: float64
- name: prob_P
dtype: float64
splits:
- name: train
num_bytes: 5878675
num_examples: 15856
download_size: 3537662
dataset_size: 5878675
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
提供机构:
DrinkIcedT
搜集汇总
数据集介绍

构建方式
本数据集基于DailyDialog语料库构建,通过引入MBTI人格类型标注,实现了对话数据与人格心理学的跨领域融合。具体而言,研究者首先从DailyDialog中提取对话文本,随后利用预训练的人格分类模型对每条对话进行多维度的MBTI类型预测,生成“prob_I”(内向性概率)、“prob_N”(直觉性概率)、“prob_F”(情感性概率)和“prob_P”(感知性概率)四个连续概率特征,并据此赋予对应的标签(label)。最终形成包含15856条训练样本的高质量标注数据集,每条样本均包含对话索引(idx)、说话人(person)、对话内容(post)及MBTI相关标注字段。
特点
该数据集的核心特色在于将经典的DailyDialog多轮对话数据与MBTI人格理论相耦合,为计算语言学和个性化对话系统研究提供了独特的资源。其记录的四维概率分布(I/N/F/P)突破了传统离散标签的局限,允许研究者以连续数值表征人格倾向,从而更细腻地捕捉对话中的个体表征差异。此外,数据规模适中且格式规范,兼顾了深度学习任务对数据量的基本需求与计算效率,特别适合用于人格识别、对话风格迁移等自然语言处理任务的训练与评估。
使用方法
本数据集以HuggingFace Datasets库的标准格式存储,用户可通过加载函数直接读取训练文件夹下的所有parquet文件,无需额外预处理。在模型训练中,可灵活地将“label”字段作为多分类任务的目标变量,或将“prob_I”至“prob_P”四个概率值作为回归标签,以预测人格维度的连续分布。数据集默认支持PyTorch/TensorFlow生态,结合分词器即可快速构建数据流水线,适用于微调小参数量的语言模型或作为基础评测集。
背景与挑战
背景概述
dailydialog_mbti_labeled数据集是在DailyDialog对话语料库基础上,通过引入迈尔斯-布里格斯类型指标(MBTI)人格标签构建而成的研究资源。该数据集由学术界相关研究团队创建,旨在探索对话行为与人格特质之间的内在关联,为计算语言学与人格心理学交叉领域提供标准化评估基准。其核心研究问题在于利用人格类型维度(如内外向I/E、直觉N/S等)对日常对话进行精细化标注,从而推动对话系统个性化建模、社交机器人情感理解等前沿方向的发展。自发布以来,该数据集为心理语言学分析、个性化推荐算法以及人机交互领域的实证研究提供了重要的数据支撑,尤其在多模态人格推断任务中展现出显著的应用潜力。
当前挑战
该数据集面临的核心挑战在于人格标签的多义性与对话语境的高度耦合性。具体表现为:其一,MBTI分类系统将复杂人格简化为四维二元对立框架,难以捕捉个体在不同社交场景中动态调整的表现,导致标签与实际对话行为的映射存在偏差;其二,原始DailyDialog数据以日常闲聊为主,缺乏极端情绪或压力情境下的对话样本,限制了对人格稳定性的跨场景泛化验证;其三,构建过程中依赖自动化标记工具(如基于心理测量学的文本分析模型),其标注置信度(如prob_I等概率值)的分布不均可能引入系统性噪声,且缺乏人工独立验证环节,影响了标签的可信度与可复现性。
常用场景
经典使用场景
在计算语言学和心理学交叉研究领域,DailyDialog_MBTI_Labeled数据集为探索自然语言表达与人格特质之间的映射关系提供了宝贵资源。该数据集基于经典的'日常对话'语料库,通过引入迈尔斯-布里格斯类型指标(MBTI)标签,将16种人格类型与日常对话文本精确关联。研究者可借助该数据集训练文本分类模型,实现从对话文本中自动推断用户的人格倾向。它不仅服务于人格计算的基准测试,还为人机交互中的个性化响应生成奠定数据基础,使得系统能够根据用户的潜在人格特征调整对话策略。
实际应用
在实际应用层面,该数据集展现出广泛的使用潜力。在智能客服领域,基于该数据集训练的模型能够甄别用户的耐心程度与思维倾向,从而调整服务话术的详略与节奏。在在线教育平台,系统可依据学习者对话中流露的人格特征,定制更具适应性的教学反馈与激励方式。心理健康辅助工具亦可利用此类模型,从聊天记录中早期识别出可能具有内向或感性偏好的人群,进而定向推荐支持资源。此外,社交机器人及虚拟助手能通过学习人格感知的对话模式,提升人机交互的自然度与用户满意度。
衍生相关工作
围绕DailyDialog_MBTI_Labeled数据集,学术界已衍生出一系列经典工作。其中最具代表性的是基于Transformer架构的人格分类模型,这些模型利用预训练语言模型在下游任务上进行微调,在MBTI四维度上的分类准确率显著超越传统机器学习方法。另有研究将对话历史建模与多模态人格识别相结合,探索话语序列中句法结构与人格特征的时间演化规律。一些学者还发展出可解释性分析框架,通过注意力机制定位影响人格推断的关键话语片段。这些工作共同推动了心理学理论在自然语言处理中的可计算化进程,为建立人格感知的通用语言模型铺平了道路。
以上内容由遇见数据集搜集并总结生成



