Big Five Personality Test Dataset

Name: Big Five Personality Test Dataset
Creator: 俄罗斯莫斯科物理技术学院（MIPT）
Published: 2025-02-12 18:17:18
License: 暂无描述

arXiv2025-02-12 更新2025-02-26 收录

下载链接：

https://github.com/mary-silence/simulating_personality

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是基于Big Five人格模型创建的，由MIPT研究机构提供，旨在通过大型语言模型生成具有特定人格特质的文本，以评估LLM在模拟人格方面的能力。数据集包含了超过1015342个实际用户的人格特质信息，用于训练和评估LLM的人格模拟效果。该数据集可应用于对话系统、游戏行业和商务应用等领域，以提升用户互动体验。

This dataset is developed based on the Big Five Personality Model and provided by the MIPT research institution. It aims to generate texts with specific personality traits via large language models (LLMs) to evaluate the capability of LLMs in personality simulation. The dataset contains over 1,015,342 pieces of personality trait information from real users, and is used for training and evaluating the personality simulation performance of LLMs. This dataset can be applied in fields such as dialogue systems, the gaming industry, and business applications to enhance user interaction experience.

提供机构：

俄罗斯莫斯科物理技术学院（MIPT）

创建时间：

2025-02-12

原始信息汇总

Simulating Personality with Large Language Models

数据集简介

项目名称：Exploring the Potential of Large Language Models to Simulate Personality
研究目标：使用大型语言模型模拟人格特质，基于Big Five人格模型。
贡献者：Maria Molchanova, Anna Mikhailova, Anna Korzanova, Lidiia Ostyakova, Alexandra Dolidze。

数据集框架

功能：分析框架，用于评估模型对问卷的回答以及基于提示生成文本的能力。
包含内容：
- 问卷回答：模型回答问卷项目，用于图形分析。
- 文本生成：模型根据指定提示生成文本，使用LLM-based分类器自动分析。

定制化机会

集成其他LLM和配置。
实验不同的人格模仿技术。
使用其他问卷检测人格特质。
上传自定义问题用于文本生成。

使用方法

初始化框架、设置实验参数、执行问卷实验和文本生成实验。
结果保存：results文件夹。
分析工具：直方图、混淆矩阵、余弦相似度。

定制化选项

基础：改变语言模型和设置、修改问题、更改人格定义、调整分类器模型。
高级：如何添加新的大型语言模型、如何添加新的问卷。

安装与入门

克隆仓库：使用git clone命令。
示例：main.ipynb文件中提供了使用框架的示例。

联系方式

问题或协助：在GitHub上开启issue或联系贡献者。

搜集汇总

数据集介绍

构建方式

本研究旨在探索大型语言模型（LLMs）模拟人格特质的能力。为此，研究者们构建了一个数据集，包含预定义的大五人格特征的生成文本，并提供了用于测试LLMs在模拟人格技能方面的分析框架。首先，研究者们利用大五人格问卷来评估LLMs对人格特质与相关行为之间联系的理解。接着，LLMs被提示生成关于其诱导人格的文本。研究者们使用人类评估、自动评估和语言特征分析来分析LLM生成的文本，以全面了解LLMs的人格模拟能力。

使用方法

该数据集的使用方法包括以下几个步骤：首先，使用大五人格问卷来评估LLMs对人格特质与相关行为之间联系的理解。接着，提示LLMs生成关于其诱导人格的文本。然后，使用人类评估、自动评估和语言特征分析来分析LLM生成的文本。最后，使用该数据集可以评估LLMs在不同任务中模拟人格特质的表现，并改进LLMs在模拟人格特质方面的能力。

背景与挑战

背景概述

随着大型语言模型（LLM）的进步，对话AI的焦点已经从仅仅生成连贯和相关的响应，转向解决更复杂的挑战，例如个性化对话系统。为了提高用户体验，聊天机器人通常被设计成模仿人类行为，在定义的情绪范围内进行响应，并符合一组价值观。在这项研究中，我们旨在使用LLM模拟大五人格模型的个人特质。我们的研究显示，生成与人格相关的文本对模型来说仍然是一项具有挑战性的任务。因此，我们提供了一个具有预先定义的大五特征的生成文本数据集，并提供了用于测试LLM在人格模拟技能上的分析框架。

当前挑战

生成与人格相关的文本对模型来说仍然是一项具有挑战性的任务。在构建过程中，我们遇到了以下挑战：1）如何准确地模拟大五人格模型中的个人特质；2）如何使LLM在生成文本时保持一致的人格特征；3）如何评估LLM在模拟人格方面的准确性和一致性。

常用场景

经典使用场景

在人工智能和自然语言处理领域，该数据集被广泛用于评估大型语言模型（LLM）在模拟人类性格方面的能力。通过预定义的五大性格特征（开放性、责任心、外向性、宜人性、神经质）生成的文本数据集，研究人员可以测试LLM在不同性格特征下的文本生成能力，以及它们如何将性格特征与相应的行为和语言模式联系起来。

解决学术问题

该数据集解决了LLM在模拟性格方面的挑战，特别是在理解性格特征与行为之间的联系，以及如何将这些特征转化为自然语言文本。此外，数据集还提供了一个分析框架，用于测试LLM在模拟性格技能方面的准确性、一致性和有效性，这对于促进对话系统的个性化和提升用户体验具有重要意义。

实际应用

在现实应用中，该数据集可以用于开发更具个性化的对话系统，如聊天机器人，使它们能够更好地模拟人类性格，从而提高用户满意度和互动性。此外，该数据集还可以用于游戏开发、虚拟助手、客户服务等领域，为创建具有不同性格特征的角色和虚拟代理提供支持。

数据集最近研究