Personal-ITY
收藏arXiv2020-11-11 更新2024-06-21 收录
下载链接:
https://github.com/elisabassignana/Personal-ITY
下载链接
链接失效反馈官方服务:
资源简介:
Personal-ITY是一个由都灵大学信息学系开发的意大利语YouTube评论数据集,包含1048名用户的评论,每条评论都标注了MBTI个性特质。数据集通过远距离监督方法创建,利用用户在评论中自我披露的个性类型信息。该数据集旨在解决非英语语言环境下的个性检测问题,特别是在社交媒体文本中的应用。创建过程中,研究人员确保了用户身份的保护,仅使用非唯一标识的YouTube用户名。Personal-ITY的应用领域包括心理学研究、市场营销、政治分析以及计算对话系统等。
Personal-ITY is an Italian YouTube comments dataset developed by the Department of Informatics, University of Turin. It comprises comments from 1048 users, with each comment annotated with MBTI personality traits. The dataset was constructed via distant supervision, leveraging personality type information self-disclosed by users in their comments. It aims to address personality detection tasks in non-English language contexts, particularly for applications on social media text. During its development, researchers ensured user privacy protection by only using non-unique YouTube usernames. The application domains of Personal-ITY include psychological research, marketing, political analysis, computational dialogue systems, and other relevant fields.
提供机构:
都灵大学信息学系
创建时间:
2020-11-11
搜集汇总
数据集介绍

构建方式
在人格计算领域,数据集的构建往往依赖于用户自我披露的语言痕迹。Personal-ITY的构建采用了远程监督方法,通过筛选YouTube平台上关于MBTI理论的视频评论,自动关联用户与其自我报告的人格类型标签。具体流程包括:首先搜集十部具有大量相关评论的意大利语MBTI视频;其次利用AJAX请求提取评论,将包含MBTI类型组合的评论与其作者关联;随后通过扩展视频频道集合,获取这些作者在其他视频下的更多评论;最后保留至少拥有五条评论且每条评论长度不少于五个词符的用户数据,形成包含1048位用户、96815条评论的最终语料库,其中约6-7%的标签可能存在噪声。
特点
该数据集在人格计算资源中展现出独特优势。其数据源自YouTube评论,相比常见的推特文本,评论长度更为自由,为用户提供了更丰富的语言表达空间。数据规模涵盖1048位用户,平均每位用户拥有92条评论,每条评论平均包含115个词符,确保了充足的文本量。人格类型分布呈现不均衡性,与TWISTY等现有意大利语资源趋势相似,尤其在内向型人格上表现集中,这反映了实际人群分布与网络行为偏好。数据集采用MBTI模型标注,与TWISTY兼容,便于开展跨领域对比与迁移学习研究。
使用方法
Personal-ITY适用于人格检测任务的模型训练与评估。研究者可基于该数据集构建分类模型,预测MBTI的四个维度或完整类型标签。典型方法包括使用线性支持向量机等分类器,结合词级与字符级n-gram特征、风格特征(如表情符号、标点使用)或词嵌入表示进行实验。数据集支持十折交叉验证,也可与TWISTY合并进行跨域性能测试,以探究模型在不同平台间的泛化能力。初步实验表明,词汇特征在人格预测中表现最佳,但模型易受训练语境影响,因此跨数据集分析有助于深入理解人格语言线索的稳定性与领域适应性。
背景与挑战
背景概述
在计算心理学与自然语言处理的交叉领域,人格预测旨在通过文本自动推断个体稳定的心理特质。意大利语在此方向的数据资源相对稀缺,为此都灵大学与格罗宁根大学的研究团队于近年构建了Personal-ITY数据集。该数据集聚焦于迈尔斯-布里格斯类型指标(MBTI)人格模型,通过远程监督方法从YouTube平台的意大利语评论中自动标注了1048名用户的16种人格类型,平均每名用户提供约92条评论。其核心研究问题在于探索社交媒体文本与人格特质之间的关联,并推动意大利语人格检测模型的发展。相较于先前基于推特等平台的语料,Personal-ITY以更长的文本形式提供了更丰富的语言表达样本,为跨领域人格计算研究奠定了重要基础。
当前挑战
人格预测任务本身面临多重挑战。从领域问题来看,人格特质具有高度主观性与复杂性,即便人类标注者也难以达成一致,导致自动分类模型性能受限,例如MBTI中“情感-思维”与“判断-感知”维度的预测准确率显著低于其他维度。数据构建过程中,远程监督方法虽能高效获取大规模标注,但约6.3%的标签存在噪声,源于用户评论中MBTI类型提及可能并非指向自身人格。此外,YouTube API无法直接获取用户全部评论,需通过视频相似性扩展数据收集范围,这引入了数据覆盖不全的偏差。人格类型分布不均衡也反映了现实人群中的特质差异与在线行为偏好,进一步增加了模型训练的难度。
常用场景
经典使用场景
在计算人格识别领域,Personal-ITY数据集为意大利语社交媒体文本分析提供了重要资源。该数据集通过远距离监督方法,从YouTube评论中自动标注迈尔斯-布里格斯类型指标人格标签,其最经典的应用场景在于探索语言特征与人格特质之间的关联性。研究者利用该数据集训练分类模型,分析词汇选择、句法结构等语言学线索如何反映个体的外向性、直觉性等维度特征,为跨文化人格计算研究奠定数据基础。
解决学术问题
Personal-ITY有效解决了意大利语人格计算研究中数据资源匮乏的学术难题。相较于传统问卷调查,该数据集通过社交媒体自然语言捕捉真实语境下的人格表达,为验证心理语言学理论提供了实证依据。其采用的四维度MBTI标注体系,使得研究者能够深入探究人格特质在语言层面的多维表征,推动了计算心理学与自然语言处理领域的交叉融合,为跨语言人格比较研究创造了条件。
衍生相关工作
Personal-ITY催生了系列重要研究,如Bassignana等人基于该数据集开展的意大利社交媒体人格画像分析工作。数据集与TWISTY语料的对比研究推动了跨平台人格计算方法的演进,相关成果在PEOPLES@COLING等国际会议上发表。后续研究进一步探索了嵌入表示与风格特征在人格预测中的效能,为多模态人格计算模型的发展提供了意大利语基准数据。
以上内容由遇见数据集搜集并总结生成



