PersonaTAB

Name: PersonaTAB
Creator: 香港中文大学深圳校区数据科学学院SRIBD、南京大学苏州校区智能科学与技术学院、新加坡国立大学电子与计算机工程系
Published: 2025-05-20 21:41:32
License: 暂无描述

arXiv2025-05-20 更新2025-05-22 收录

下载链接：

https://github.com/shinshoji01/Personality-Prediction-for-Conversation-Agents

下载链接

链接失效反馈

官方服务：

资源简介：

PersonaTAB是一个基于完全双工语音对话的数据集，旨在预测对话中的个性特征。该数据集由原始音频记录预处理而成，标注有时间戳、响应类型、情绪/情感标签。通过自动语音识别系统提取文本和音频特征，并结合大语言模型预测对话者的个性。数据集包含95个对话，涉及190位说话者，为对话系统开发提供了宝贵的资源。

PersonaTAB is a fully duplex speech conversation dataset intended for predicting personality traits in dialogues. This dataset is preprocessed from raw audio recordings, and annotated with timestamps, response types, and emotion/sentiment labels. Text and audio features are extracted via automatic speech recognition (ASR) systems, and combined with large language models (LLMs) to predict the personalities of conversational speakers. The dataset contains 95 conversations involving 190 speakers, serving as a valuable resource for dialogue system development.

提供机构：

香港中文大学深圳校区数据科学学院SRIBD、南京大学苏州校区智能科学与技术学院、新加坡国立大学电子与计算机工程系

创建时间：

2025-05-20

原始信息汇总

数据集概述

基本信息

数据集名称: Personality-Prediction-for-Conversation-Agents
相关论文: PersonaTAB: Predicting Personality Traits using Textual, Acoustic, and Behavioral Cues in Fully-Duplex Speech Dialogs

数据集内容

实现代码: implementation/
示例提示与响应:
- 用于反向通道分类: sample_prompts_responses_backchannel_chassification/
- 用于性格预测: sample_prompts_responses_character_prediction/
示例表格:
- 轮转对话表: sample_turntaking_tables/
- 反向通道表: sample_backchannel_tables/
性格标签数据:
- Fisher数据集的预测性格标签: personality_labels_Fisher/predicted_personality_labels.csv
- Fisher数据集的人工标注性格标签: personality_labels_Fisher/ground-truth_personality_labels.csv
主观评估网站示例页面: subjective_evaluation/sample_pages/

数据用途

用于预测对话代理的性格特征，结合文本、声学和行为线索。

搜集汇总

数据集介绍

构建方式

PersonaTAB数据集的构建采用了一套系统化的预处理流程，专注于从双通道语音对话中提取多层次特征。研究团队首先利用Whisper Turbo自动语音识别系统对原始音频进行转录，并获取词级时间戳，随后通过静音间隔检测技术构建对话结构。针对笑声、重叠话语等副语言特征，采用专用检测器进行标注，并结合700ms的静默阈值划分话轮边界。对于复杂的反馈性话语（如情感性/认知性回应词），采用GPT-4大语言模型结合对话上下文进行分类。最终整合文本内容（情感/情绪标签）、声学特征（笑声频率）和对话行为（话轮转换、插话）三类特征，形成结构化标注体系。

特点

该数据集的核心价值在于其多模态标注体系和心理学理论基础。基于大五人格模型（开放性、尽责性、外向性、宜人性、神经质），数据集不仅包含传统文本转录，还创新性地标注了完全双工对话中的重叠语音片段（部分重叠/完全重叠）、笑声事件（孤立笑声/伴随性笑声）以及六类情感状态。特别值得注意的是对话行为标签系统，能够区分成功插话、情感反馈词（如"wow"）、认知反馈词（如"I see"）等细微互动特征。所有标注均通过人类评估验证，与心理学研究的预期趋势保持高度一致，例如外向性与频繁话轮转换的正相关性（r=0.74）。

使用方法

该数据集主要服务于人格感知对话系统的开发与评估。使用者可通过三种路径利用数据资源：其一，直接提取结构化标注特征（如每分钟笑声次数、情感反馈词频率）作为传统机器学习模型的输入；其二，利用提供的GPT-4提示模板框架，将说话人属性（基础统计、情感分布、示例语句）转化为人格特质预测；其三，基于对话行为标签开发新型交互策略。实验表明，整合全部特征类别（情绪/情感+基础统计+示例语句）的预测方案与人类评估的余弦相似度最高（0.503）。建议研究者重点关注第75百分位以上的声学特征异常值，这些数据点对神经质等特质的识别具有显著贡献。

背景与挑战

背景概述

PersonaTAB数据集由香港中文大学（深圳）数据科学学院、南京大学智能科学与技术学院以及新加坡国立大学的研究团队于2025年联合发布，旨在解决语音对话系统中人格感知能力缺失的核心问题。该数据集创新性地通过双通道语音数据预处理，构建了包含时间戳、响应类型、情感/情绪标签及人格标注的对话语料，填补了语音数据缺乏人格标注的研究空白。基于大五人格理论框架，研究团队设计了融合文本、声学和行为特征的多模态预测系统，为人格感知对话代理的开发提供了重要基准。该工作首次实现了从全双工语音对话中提取人格特质，推动了自适应对话系统领域的发展。

当前挑战

构建PersonaTAB数据集面临双重挑战：在领域问题层面，人格预测需解决多模态特征融合的复杂性，包括文本内容、声学特征（如笑声）和对话行为（如插话、主导性）的协同建模；同时需克服语音对话中人格表达隐式性带来的标注困难。在构建技术层面，研究团队需处理原始语音转写中的重叠对话分割、非言语行为（如笑声）的精确标注，以及基于上下文的后通道分类等问题。全双工对话特有的同时性语音特性，使得传统基于静音间隔的说话人切换检测方法失效，需开发新型时间戳对齐算法。此外，人格标签的生成依赖大语言模型推理与人工评估的协同验证，这种混合标注机制对质量一致性控制提出了更高要求。

常用场景

经典使用场景

在心理学与人机交互的交叉领域，PersonaTAB数据集通过标注语音对话中的时间戳、响应类型及情感标签，为研究者提供了分析人格特质与对话行为关联的标准化工具。其典型应用场景包括构建全双工对话系统中的人格自适应模块，通过整合文本、声学和行为线索，实现对话代理对用户个性的动态响应。该数据集特别适用于分析重叠语音片段（如插话、反馈性发声）与五大人格特质（开放性、尽责性等）的映射关系，为自然对话建模提供了细粒度标注范本。

衍生相关工作

该数据集催生了多项创新研究：其一，衍生出基于对话片段的人格特质迁移学习框架（如Personality-LM），将Fisher电话语料库的标注知识迁移至社交媒体文本分析；其二，推动了《Talking Turns》等基准对全双工对话动态的量化评估；其三，启发Moshi等语音助手采用人格感知的响应生成策略。其标注规范更被后续研究扩展至跨文化对话分析，如针对意大利语多单元反馈词的特性研究。

数据集最近研究