Contextual Paralinguistic QA (CPQA) 数据集

Name: Contextual Paralinguistic QA (CPQA) 数据集
Creator: 信息通信研究院（I2R）, 科学技术与研究机构（A⋆STAR）, 新加坡
Published: 2025-05-20 00:47:46
License: 暂无描述

arXiv2025-05-20 更新2025-05-21 收录

下载链接：

https://github.com/ddlBoJack/emotion2vec

下载链接

链接失效反馈

官方服务：

资源简介：

本文提出了一种新的数据集生成框架，用于从野外语音数据中生成包含上下文推理和副语言信息的CPQA数据集。该框架包括数据浓缩和基于LLM的CPQA自动生成。为了解决副语言标签有限且噪声大、CPQA生成困难的问题，该框架使用了SER一致性过滤和出现过滤技术，并利用LLM自动生成QA对。生成的数据集包含480个语音样本，每个样本都配对有CPQA对，旨在为训练具有副语言推理能力的更强大的语音LLM提供支持。

This paper proposes a novel dataset generation framework for constructing CPQA datasets that integrate contextual reasoning and paralinguistic information from in-the-wild speech data. This framework encompasses two core components: data condensation and LLM-based automatic CPQA generation. To address the challenges of limited and noisy paralinguistic labels as well as the difficulties in CPQA generation, the framework adopts SER consistency filtering and occurrence filtering techniques, and leverages LLMs to automatically generate QA pairs. The resulting dataset contains 480 speech samples, each paired with a corresponding CPQA pair, and is designed to support the training of more robust speech LLMs equipped with paralinguistic reasoning capabilities.

提供机构：

信息通信研究院（I2R）, 科学技术与研究机构（A⋆STAR）, 新加坡

创建时间：

2025-05-20

原始信息汇总

emotion2vec 数据集概述

基本信息

名称: emotion2vec
类型: 语音情感表示模型
开发语言: Python 3.8+
框架: PyTorch 1.13+
许可证: MIT
平台支持: Linux

模型版本

模型名称	Model Scope	Hugging Face	微调数据（小时）
emotion2vec	Link	Link	/
emotion2vec+ seed	Link	Link	201
emotion2vec+ base	Link	Link	4788
emotion2vec+ large	Link	Link	42526

主要功能

emotion2vec+: 语音情感识别基础模型
- 支持9类情感识别
- 情感类别包括：angry, disgusted, fearful, happy, neutral, other, sad, surprised, unknown
emotion2vec: 通用语音情感表示模型
- 支持跨任务、跨语言、跨场景的情感特征提取

性能表现

IEMOCAP数据集: 达到SOTA性能
多语言支持: 在普通话、法语、德语、意大利语等语言上表现优异
其他语音情感任务: 详细性能参考论文

数据特征

提供IEMOCAP数据集的提取特征
- 帧级特征: Google Drive | Baidu Netdisk
- 语句级特征: Google Drive | Baidu Netdisk

使用方法

通过FunASR安装: bash pip install -U funasr
特征提取代码示例: python from funasr import AutoModel model_id = "iic/emotion2vec_base" model = AutoModel(model=model_id, hub="ms") wav_file = "test.wav" rec_result = model.generate(wav_file, output_dir="./outputs", granularity="utterance")

贡献机构

上海交通大学
复旦大学
香港中文大学
阿里巴巴集团
鹏城实验室

引用

bibtex @article{ma2023emotion2vec, title={emotion2vec: Self-Supervised Pre-Training for Speech Emotion Representation}, author={Ma, Ziyang and Zheng, Zhisheng and Ye, Jiaxin and Li, Jinchao and Gao, Zhifu and Zhang, Shiliang and Chen, Xie}, journal={Proc. ACL 2024 Findings}, year={2024} }

搜集汇总

数据集介绍

构建方式

CPQA数据集的构建采用了创新的框架，结合了伪副语言标签的数据浓缩和基于大型语言模型（LLM）的上下文副语言问答生成。首先，通过自动语音情感识别（SER）工具对原始语音数据进行情感标注，避免了高成本的人工标注。数据浓缩过程包括语音分段、情感标签一致性过滤和出现频率过滤，确保数据集的平衡性和可靠性。随后，利用WhisperX生成时间对齐的语音转录，并将情感和性别元数据与单词级转录对齐。最终，通过LLM生成多样化的问答对，涵盖情感、说话者属性和上下文推理等多个方面。

特点

CPQA数据集的特点在于其全面覆盖了上下文推理和副语言理解的双重需求。数据集包含480个语音样本，每个样本时长为30至60秒，总计约6.5小时的语音数据，并生成了2,647个问答对。数据集的问答对不仅关注情感标签和说话者属性，还深入探讨了情感背后的上下文推理，为语音-LLM模型提供了丰富的训练和评估素材。此外，数据集通过自动化和人工标注的结合，确保了数据的高质量和多样性，为研究 empathetic speech-LLMs 提供了重要支持。

使用方法

CPQA数据集的使用方法主要包括模型训练和评估两个主要场景。在训练场景中，研究人员可以利用数据集中的语音样本和对应的问答对，训练语音-LLM模型以提升其在上下文推理和副语言理解方面的能力。在评估场景中，数据集可作为基准测试工具，用于评估模型在情感识别、说话者属性分析和上下文推理等任务上的表现。使用过程中，建议结合多种提示（prompt）策略，例如内容准确性和副语言信息结合的提示，以全面评估模型的性能。此外，数据集还可用于对比分析不同模型在 empathetic reasoning 任务上的表现，为进一步优化模型提供依据。

背景与挑战

背景概述

Contextual Paralinguistic QA (CPQA) 数据集由新加坡科技研究局（A*STAR）下属的信息通信研究院（I2R）的研究团队于2025年提出，旨在解决语音大语言模型（Speech-LLM）在上下文推理与副语言理解方面的能力局限。该数据集通过整合伪副语言标签的数据浓缩和基于大语言模型的自动化QA生成，首次实现了副语言线索与上下文推理的联合建模。其核心研究问题聚焦于如何从真实场景语音数据中提取情感、性别等副语言特征，并生成兼具内容理解与情感推理的问答对，为构建更具同理心的语音交互系统提供了关键数据支撑。数据集通过Qwen2-Audio-7B-Instruct等模型的验证，证实了其在评估语音大语言模型副语言推理能力方面的有效性。

当前挑战

CPQA数据集面临双重挑战：在领域问题层面，现有语音大语言模型对情感共鸣等副语言推理任务表现不足，主要由于缺乏同时涵盖上下文与副语言特征的标注数据；在构建过程中，需克服真实场景语音数据中副语言标签稀缺且噪声高的难题，例如情感标注的主观性导致需要多标注者投票，而中性情感样本的过拟合会降低数据集多样性。此外，自动化QA生成需平衡问题覆盖度与答案准确性，避免因依赖语音转录文本或生成重复性问题导致的评估偏差。数据浓缩阶段还需通过混合离散情感分类与维度情感模型，解决自发语音情感识别置信度低的问题。

常用场景

经典使用场景

Contextual Paralinguistic QA (CPQA) 数据集在语音-大语言模型（Speech-LLM）的研究中具有重要应用价值，特别是在结合上下文推理与副语言理解的任务中。该数据集通过整合情感识别模型和自动生成的问答对，为模型训练和评估提供了丰富的数据支持。其经典使用场景包括语音情感识别、多模态对话系统的开发以及情感感知的语音处理任务。

实际应用

在实际应用中，CPQA 数据集可用于开发情感感知的语音助手、多模态客服系统以及心理健康监测工具。例如，在客服场景中，模型可以通过分析用户的语音情感和上下文信息，提供更具同理心的回应。此外，该数据集还可用于教育领域的情感识别研究，帮助开发更智能的学习辅助工具。

衍生相关工作

CPQA 数据集的推出催生了一系列相关研究，例如基于该数据集的语音情感识别模型优化、多模态对话系统的开发以及情感推理任务的评估框架。这些工作进一步拓展了语音-大语言模型的应用范围，并在情感计算和自然语言处理领域产生了广泛影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集