five

PersonalHub

收藏
Hugging Face2025-05-17 更新2025-05-18 收录
下载链接:
https://huggingface.co/datasets/FreedomIntelligence/PersonalHub
下载链接
链接失效反馈
官方服务:
资源简介:
Personal Hub是一个用于挖掘和利用高表现力语音数据的新框架,通过结合空间时间上下文和组合属性控制。该框架核心是一个语音属性矩阵,允许注释者系统地结合与说话人相关的特征(如年龄、性别、情感、口音和环境)和时间元数据,以制作具有多样化和丰富表现特性的语音样本。基于这个矩阵驱动数据收集范式,构建了一个多级表现力数据集,根据属性组合的多样性和复杂性分为三个层次。通过自动语音识别模型和大端到端语音模型的微调,研究了这种精选数据的好处。
提供机构:
FreedomAI
创建时间:
2025-05-17
原始信息汇总

数据集概述:Personal Hub

基本信息

  • 许可证: MIT
  • 语言: 英语 (en)

数据集配置

  • 配置名称: benchmark
    • 数据文件:
      • only_gender_reliable: gender_metadata.csv
      • emotion_reliable: emotion_metadata.csv

数据集简介

Personal Hub 是一个通过整合时空特征与组合属性控制来挖掘和利用高表现力语音数据的新框架。其核心是一个语音属性矩阵,使标注者能够系统地将说话者相关特征(如年龄、性别、情感、口音和环境)与时间元数据结合,以策划具有多样化和丰富表现特征的语音样本。

数据筛选方法

可用性筛选

  • 时长过滤: 排除短于5秒或长于15秒的音频片段。
  • 重采样: 所有音频文件重采样至16 kHz。
  • 声道转换: 立体声音频文件转换为单声道。

转录筛选

  • 使用 Whisper-Large-v3-turbo 评估转录质量,仅保留词错率 (WER) 低于0.1的样本。

性别筛选

  • 由四名标注者手动验证,仅保留全体一致同意的样本。

情感筛选

  • 由四名标注者手动审查,仅保留全体一致同意的样本。

数据来源

  • only_gender_reliable: CommonVoice (https://commonvoice.mozilla.org/)
  • emotion_reliable:
    • CREMA-D (https://github.com/CheyneyComputerScience/CREMA-D)
    • RAVDESS (https://zenodo.org/records/1188976#.YFZuJ0j7SL8)
搜集汇总
数据集介绍
main_image_url
构建方式
在语音数据处理领域,PersonalHub数据集通过创新的时空特征整合方法构建而成。该数据集采用语音属性矩阵作为核心框架,系统化地结合了年龄、性别、情感、口音和环境等多维度说话人特征,并辅以时间元数据。为确保数据质量,研究团队实施了严格的预处理流程:对音频时长进行5-15秒的筛选,统一重采样至16kHz,将立体声转换为单声道。此外,通过Whisper-Large-v3-turbo模型进行转录质量评估,仅保留词错误率低于0.1的样本,并由四名标注者进行人工验证,仅采纳完全一致的标注结果。
特点
PersonalHub数据集最显著的特点在于其多层次的表现力分级体系,根据属性组合的多样性和复杂性将语音样本划分为三个层级。数据集整合了来自CommonVoice、CREMA-D和RAVDESS等多个权威来源的数据,确保了样本的多样性和代表性。特别值得注意的是,该数据集对性别和情感属性进行了严格的人工验证,仅保留标注者完全一致的样本,这种严谨的标注策略大幅提升了数据的可靠性。时空特征的有机整合使得该数据集特别适合研究语音表现力对AI系统的影响。
使用方法
该数据集主要应用于语音AI系统的微调与改进研究,具体体现在两个关键方向:自动语音识别(ASR)模型的优化,实验证明引入高表现力数据能加速模型收敛并提升声学表征学习效果;端到端大型语音模型的增强,人类评估和模型评估均显示经过该数据集微调后,系统的交互能力和表现力获得显著提升。研究人员可通过HuggingFace平台获取数据集,其中gender_metadata.csv包含经过严格验证的性别属性数据,emotion_metadata.csv则提供情感属性的可靠标注,为相关研究提供了高质量的基准数据。
背景与挑战
背景概述
PersonalHub数据集由研究团队于近年开发,旨在通过整合时空特征与组合属性控制,挖掘和利用高表现力语音数据。该数据集的核心创新在于引入语音属性矩阵,使标注者能够系统性地结合年龄、性别、情感、口音和环境等说话者相关特征,从而构建具有丰富表达特性的语音样本。这一框架不仅推动了自动语音识别(ASR)模型的优化,还显著提升了端到端语音模型的交互与表达能力,为语音AI系统的性能提升提供了新的研究视角。数据集主要基于CommonVoice、CREMA-D和RAVDESS等公开语音资源,通过严格的筛选和标注流程构建而成。
当前挑战
PersonalHub数据集在构建与应用过程中面临多重挑战。从领域问题来看,高表现力语音数据的多样性和复杂性对模型的泛化能力提出了更高要求,尤其是在处理多属性组合时,如何平衡数据覆盖范围与标注一致性成为关键难点。在构建过程中,数据筛选的严格性是一大挑战,例如通过Whisper-Large-v3-turbo模型确保转录质量(WER低于0.1),以及依赖多名标注者达成一致意见的性别与情感标注流程,这些步骤虽提升了数据可靠性,但也显著增加了时间与人力成本。此外,音频数据的预处理(如时长过滤、重采样和声道转换)需在保证一致性的同时,避免信息损失,这对技术方案的鲁棒性提出了较高要求。
常用场景
经典使用场景
在语音识别和情感计算领域,PersonalHub数据集通过其独特的时空特征整合机制,为研究者提供了丰富的高表现力语音样本。该数据集特别适用于自动语音识别(ASR)系统的训练与优化,通过整合多层次的语音属性(如年龄、性别、情感、口音和环境),显著提升了模型的泛化能力和鲁棒性。
实际应用
在实际应用中,PersonalHub数据集被广泛用于智能语音助手、情感识别系统和多模态人机交互平台的开发。其高质量的标注数据(如通过Whisper模型筛选的低WER样本)为商业化语音产品提供了可靠的训练基础,尤其在需要高情感识别精度的场景(如心理健康监测或个性化服务)中表现突出。
衍生相关工作
基于PersonalHub的语音属性整合方法,衍生了一系列经典研究,包括多任务学习的语音表征框架、基于注意力机制的时空特征融合模型等。其数据筛选标准(如四标注者一致性的情感验证)也被CREMA-D和RAVDESS等知名数据集后续采用,推动了语音数据标注范式的标准化进程。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作