five

MBTIBENCH|性格检测数据集|心理学数据集

收藏
arXiv2024-12-17 更新2024-12-19 收录
性格检测
心理学
下载链接:
https://github.com/Personality-NLP/MbtiBench
下载链接
链接失效反馈
资源简介:
MBTIBENCH是由哈尔滨工业大学等机构创建的第一个高质量MBTI性格检测数据集,旨在解决现有数据集中自我报告标签不准确和缺乏软标签的问题。数据集通过心理学家的指导进行手动重新标注,包含286条样本,涵盖了四种MBTI维度的软标签,能够更好地反映人口性格特质的自然分布。数据集的创建过程包括数据过滤、重新标注和软标签估计,旨在解决现有数据集中的标签泄露和无关噪声问题。该数据集主要应用于心理学任务,特别是通过文本内容自动推断个体的MBTI类型,以提高性格检测的准确性和实用性。
提供机构:
哈尔滨工业大学
创建时间:
2024-12-17
AI搜集汇总
数据集介绍
main_image_url
构建方式
MBTIBENCH数据集的构建基于对现有MBTI人格检测数据集的优化,旨在解决现有数据集中存在的标签不准确和缺乏软标签的问题。首先,通过数据过滤指南,剔除了包含标签泄露和无用噪音的样本,确保数据质量。随后,在心理学专家的指导下,对清理后的数据进行手动重新标注,确保每个样本的标签与文本中体现的人格倾向一致。此外,为了捕捉人口中广泛存在的中等人格特质,数据集引入了软标签,通过EM算法估计样本的极性倾向,生成连续的标签值,从而更准确地反映人口中的人格分布。
特点
MBTIBENCH数据集的显著特点在于其高质量的手动标注和软标签的引入。与传统的硬标签不同,软标签能够捕捉到人格特质的连续性,避免了二元分类的局限性。此外,数据集通过心理学专家的指导,确保了标注的准确性和可靠性,解决了现有数据集中自我报告标签不准确的问题。实验结果表明,软标签能够更好地反映人口中的人格分布,尤其是在非极端人格特质的表现上。
使用方法
MBTIBENCH数据集可用于评估和训练大语言模型(LLMs)在MBTI人格检测任务中的表现。研究者可以通过该数据集进行模型训练和评估,特别是针对软标签的预测能力。数据集支持多种提示方法(如Zero-shot、Step-by-step、Few-shot和PsyCoT),研究者可以根据不同的提示策略进行实验,评估模型在不同维度上的人格预测能力。此外,数据集还可用于验证软标签在其他心理学任务中的有效性,如压力检测等。
背景与挑战
背景概述
MBTIBENCH数据集由哈尔滨工业大学、中南大学等机构的研究人员创建,旨在解决现有MBTI人格检测数据集中的标签不准确和极端标签缺失问题。该数据集首次引入了软标签,通过心理学家的指导进行手动标注,确保标签与人口性格分布一致。MBTIBENCH的构建不仅解决了自报告标签的错误问题,还通过软标签估计方法捕捉了非极端性格特征,为大语言模型(LLMs)在人格检测领域的研究提供了高质量的数据支持。
当前挑战
MBTIBENCH数据集的构建面临两大主要挑战:一是现有数据集中自报告标签的错误问题,导致标签与实际语言模式不匹配;二是现有数据集仅使用二元硬标签,无法反映人口中广泛存在的非极端性格特征。此外,数据集的构建过程中还需解决标签泄露和无用噪音等问题,确保数据质量。通过引入软标签和专家指导的手动标注,MBTIBENCH成功解决了这些问题,但如何在更大规模上扩展数据集并保持高质量仍是一个挑战。
常用场景
经典使用场景
MBTIBENCH数据集的经典使用场景主要集中在基于文本内容的人格类型检测,特别是Myers-Briggs Type Indicator (MBTI)人格类型的自动识别。该数据集通过高质量的手动标注和软标签设计,解决了现有数据集中自报告标签不准确和硬标签无法捕捉人格分布多样性的问题。研究者可以利用该数据集训练和评估模型,以更准确地从社交媒体帖子、博客等文本中推断用户的MBTI类型,从而推动人格检测领域的研究进展。
解决学术问题
MBTIBENCH数据集解决了现有MBTI人格检测数据集中存在的两大主要学术问题:一是自报告标签的不准确性,导致数据质量问题;二是硬标签无法反映人格特质的连续性和多样性,忽略了非极端人格特质的存在。通过引入软标签和心理学专家的指导,该数据集不仅提高了人格检测的准确性,还为研究者提供了更符合人口特质分布的标签,推动了人格检测任务的优化和模型性能的提升。
衍生相关工作
MBTIBENCH数据集的发布催生了一系列相关研究工作,特别是在人格检测和自然语言处理领域。研究者们基于该数据集开发了多种模型和算法,探索了软标签在人格检测任务中的优势,并进一步研究了大型语言模型(LLMs)在人格检测中的表现和偏差。此外,该数据集还推动了跨学科研究,如将MBTI人格类型与心理健康检测任务结合,验证了软标签在相关任务中的有效性,为未来的研究提供了新的方向和思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CatMeows

该数据集包含440个声音样本,由21只属于两个品种(缅因州库恩猫和欧洲短毛猫)的猫在三种不同情境下发出的喵声组成。这些情境包括刷毛、在陌生环境中隔离和等待食物。每个声音文件都遵循特定的命名约定,包含猫的唯一ID、品种、性别、猫主人的唯一ID、录音场次和发声计数。此外,还有一个额外的zip文件,包含被排除的录音(非喵声)和未剪辑的连续发声序列。

huggingface 收录

Fruits-360

一个高质量的水果图像数据集,包含多种水果的图像,如苹果、香蕉、樱桃等,总计42345张图片,分为训练集和验证集,共有64个水果类别。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

The MaizeGDB

The MaizeGDB(Maize Genetics and Genomics Database)是一个专门为玉米(Zea mays)基因组学研究提供数据和工具的在线资源。该数据库包含了玉米的基因组序列、基因注释、遗传图谱、突变体信息、表达数据、以及与玉米相关的文献和研究工具。MaizeGDB旨在支持玉米遗传学和基因组学的研究,为科学家提供了一个集成的平台来访问和分析玉米的遗传和基因组数据。

www.maizegdb.org 收录