five

音乐偏好与人格特质数据集

收藏
arXiv2025-08-26 更新2025-08-28 收录
下载链接:
https://arc.net/l/quote/byjckxas
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由特拉维夫雅法学术大学计算机科学系的研究人员创建,旨在探索音乐偏好与人格特质之间的关系。数据集包含超过500,000个文本样本,由近5,000名具有可靠音乐偏好的作者撰写。这些样本从各种非音乐相关的在线论坛收集,确保了广泛的主题代表性。每个参与者都与他们经常参与的一个主导音乐类型相关联,使文本人格提取无偏,并专注于分析人格特质与音乐偏好之间的关系。数据集可用于训练和评估人格检测模型,为计算语言学、音乐心理学和人格研究领域提供资源。

This dataset was developed by researchers from the Department of Computer Science at Tel Aviv-Yafo Academic University, with the aim of exploring the relationship between music preferences and personality traits. It contains over 500,000 text samples authored by nearly 5,000 participants with confirmed music preferences. These samples were collected across a diverse range of non-music-related online forums, ensuring broad thematic representativeness. Each participant is linked to a primary music genre they regularly engage with, which eliminates bias in text-based personality extraction and centers the analysis on the relationship between personality traits and music preferences. This dataset can be utilized to train and evaluate personality detection models, serving as a valuable resource for the fields of computational linguistics, music psychology, and personality research.
提供机构:
特拉维夫雅法学术大学计算机科学系
创建时间:
2025-08-26
搜集汇总
数据集介绍
main_image_url
构建方式
在音乐心理学与计算语言学的交叉领域,该数据集通过Reddit平台收集了近5,000名用户的公开文本数据,这些用户均被明确关联至五种音乐流派(古典、嘻哈、金属、独立与电子音乐)。为确保文本主题多样性且避免音乐相关偏见,研究团队过滤了直接涉及音乐的讨论区,并剔除长度不足40词的短文本及重复内容,最终获得超过50万条高质量文本样本。
特点
该数据集的核心特点在于其规模性与精准性:不仅涵盖超过57万条跨主题社交文本,还通过用户在高活跃度音乐子社区中的排他性参与行为,严格定义了音乐偏好标签。此外,文本内容均来自非音乐讨论区,有效避免了主题混淆,为 personality 与音乐偏好的关联研究提供了纯净的语言数据基础。
使用方法
研究者可借助该数据集训练或验证 personality 检测模型,具体流程包括:首先提取用户文本的嵌入向量,随后应用预训练的 Big Five 分类器(如基于逻辑回归的 OCEAN 维度评分模型)进行 personality 特质推断。最终可通过群体级特质得分比较或统计检验(如 ANOVA 与 Cohen's d 效应量分析),探究音乐流派与 personality 特质间的关联模式。
背景与挑战
背景概述
音乐偏好与人格特质数据集由特拉维夫雅法学院计算机科学系的Eliran Shem-Tov和Ella Rabinovich于2025年创建,旨在探索大五人格特质(开放性、尽责性、外向性、宜人性和神经质)与音乐偏好之间的语言表征关联。该数据集包含近5,000名用户的50余万条文本样本,覆盖古典、嘻哈、金属、独立和电子五种音乐流派,通过Reddit平台收集非音乐相关讨论以确保数据多样性。其研究首次将计算语言学、音乐心理学和人格分析相结合,揭示了不同流派爱好者的人格差异,例如古典音乐听众表现出更高的宜人性,而嘻哈爱好者则倾向较低的宜人性和较高的神经质,为跨学科研究提供了重要基础。
当前挑战
该数据集解决的领域问题在于自动从文本中检测人格特质并关联音乐偏好,面临模型需准确捕捉语言中细微人格表征的挑战,且需克服自我报告数据的主观偏差。构建过程中,挑战包括从Reddit用户中精确识别单一流派偏好以避免交叉污染,过滤短文本和重复内容以确保数据质量,并利用生成式AI创建高质量人格标注数据以弥补现有数据集的局限性,同时需处理社交媒体数据的匿名性和伦理合规性问题。
常用场景
经典使用场景
音乐心理学与计算语言学的交叉研究中,该数据集常被用于探索人格特质与音乐偏好之间的关联机制。通过分析用户在非音乐相关论坛上的自发语言表达,研究者能够构建基于大五人格模型的分类器,进而识别不同音乐流派爱好者的人格特征差异。例如,古典音乐爱好者通常表现出更高的亲和性与较低的外向性,而嘻哈音乐粉丝则呈现相反趋势,这种模式为理解音乐选择背后的心理动机提供了实证基础。
衍生相关工作
该数据集衍生出多项经典研究工作,包括基于图神经网络的人格检测模型优化、跨文化音乐偏好比较分析,以及音乐风格与认知风格的关联研究。例如部分研究借鉴其数据构建方法,开发了融合多模态信息的音乐情感计算框架;另有工作将其人格分类器扩展应用于社交媒体抑郁倾向筛查,证明了音乐偏好数据在心理健康监测领域的迁移价值。这些衍生研究显著丰富了计算音乐学与数字心理学的理论体系。
数据集最近研究
最新研究方向
音乐心理学与计算语言学交叉领域的前沿研究正聚焦于通过自然语言分析揭示音乐偏好与人格特质的深层关联。该数据集通过整合近5000名用户的社交媒体文本与音乐流派偏好数据,结合大五人格模型构建高精度分类器,实证发现古典音乐爱好者呈现高宜人性与低外向性特征,而嘻哈爱好者则表现出低宜人性与高神经质倾向。这一发现不仅验证了音乐偏好作为人格表征的心理学假设,更推动了基于生成式人工智能的人格检测技术创新,为音乐推荐系统、心理健康评估等领域提供了数据驱动的理论支撑。
相关研究论文
  • 1
    Exploring the Interplay between Musical Preferences and Personality through the Lens of Language特拉维夫雅法学术大学计算机科学系 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作