myleslinder/tess

Name: myleslinder/tess
Creator: myleslinder
Published: 2024-04-07 16:33:00
License: 暂无描述

Hugging Face2024-04-07 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/myleslinder/tess

下载链接

链接失效反馈

官方服务：

资源简介：

这些刺激物是基于西北大学听觉测试第6号（NU-6；Tillman & Carhart, 1966）建模的。一组200个目标词由两位女演员（年龄分别为26岁和64岁）在载体短语“说这个词_____”中说出，并录制了每组表达七种情绪（愤怒、厌恶、恐惧、快乐、愉快的惊讶、悲伤和中性）的录音。总共有2800个刺激物。两位女演员来自多伦多地区，均以英语为母语，受过大学教育，并接受过音乐训练。听力测试表明，两位女演员的听力阈值均在正常范围内。（2010-06-21）

提供机构：

myleslinder

原始信息汇总

数据集卡片 for Toronto emotional speech set (TESS)

数据集描述

数据集摘要

这些刺激材料基于Northwestern University Auditory Test No. 6 (NU-6; Tillman & Carhart, 1966)。一组200个目标词由两位女演员（年龄分别为26岁和64岁）在载体短语“Say the word _____中说出，并录制了表现七种情绪（愤怒、厌恶、恐惧、快乐、愉快惊喜、悲伤和中性）的音频。总共有2800个刺激材料。两位女演员均来自多伦多地区，英语为母语，受过大学教育，并接受过音乐训练。听力测试表明，两位女演员的听力阈值均在正常范围内。（2010-06-21）

语言

英语

数据集结构

数据实例

json { path: .../.cache/huggingface/datasets/downloads/extracted/.../tess/OAF_back_angry.wav, audio: { path: .../.cache/huggingface/datasets/downloads/extracted/.../tess/OAF_back_angry.wav, array: array([ -1.35336370e-06, -1.84488497e-04, -2.73496640e-04, 1.40174336e-04, 8.33026352e-05, 0.00000000e+00 ]), sampling_rate: 24400 }, speaker_id: OAF, text: back, label: 3 }

使用方法

此仓库使用自定义代码，必须执行以正确加载数据集。您可以，并且应该，检查加载脚本。

python from datasets import load_dataset

dataset = load_dataset("myleslinder/tess", split="train", trust_remote_code=True)

附加信息

引用信息

BibTex @data{SP2/E8H2MF_2020, author = {Pichora-Fuller, M. Kathleen and Dupuis, Kate}, publisher = {Borealis}, title = {{Toronto emotional speech set (TESS)}}, year = {2020}, version = {DRAFT VERSION}, doi = {10.5683/SP2/E8H2MF}, url = {https://doi.org/10.5683/SP2/E8H2MF} }

搜集汇总

数据集介绍

构建方式

在语音情感识别领域，高质量的数据集对于模型训练至关重要。多伦多情感语音集（TESS）的构建过程体现了严谨的科学设计理念。该数据集以西北大学听觉测试第六版（NU-6）为模型基础，选取了200个目标单词，由两位年龄分别为26岁和64岁的女演员在标准载句“Say the word _____”中演绎。每位演员需表达七种基本情感状态，包括愤怒、厌恶、恐惧、快乐、惊喜、悲伤及中性情绪，最终形成共计2800条语音样本。所有参与者均以英语为母语，接受过大学教育和音乐训练，并通过了听力阈值正常范围的检测，确保了语音样本在声学特性与情感表达上具有高度的一致性与可靠性。

特点

作为语音情感分析领域的重要资源，TESS数据集展现出多方面的显著特征。该数据集收录的语音样本均以24.4kHz的采样率进行录制，保证了音频信号的保真度。数据集中明确标注了说话人身份、年龄、文本内容及情感标签，为多维度分析提供了结构化支持。其情感类别涵盖七种基本情绪，特别是包含了“愉悦惊喜”这一细分类别，增强了情感分类的粒度。数据集规模适中，包含2800个样本，既满足了深度学习模型训练的数据量需求，又保持了较高的标注质量与一致性，为情感识别模型的开发与评估提供了扎实的基础。

使用方法

在应用层面，TESS数据集为语音情感识别研究提供了便捷的接入途径。研究者可通过Hugging Face平台，利用其定制的数据加载脚本高效获取数据集。典型的使用方式是从datasets库中调用load_dataset函数，指定数据集名称“myleslinder/tess”并设置相应的分割参数。为确保数据结构的正确解析，加载时需启用trust_remote_code选项。成功加载后，数据集以结构化的形式呈现，包含音频路径、波形数组、说话人信息、文本及情感标签等关键字段，便于直接用于模型训练、特征提取或跨数据库的情感分析对比研究。

背景与挑战

背景概述

多伦多情感语音数据集（TESS）由多伦多大学的研究团队于2010年创建，主要研究人员包括M. Kathleen Pichora-Fuller和Kate Dupuis。该数据集旨在为语音情感识别领域提供高质量、标准化的英语情感语音样本，其核心研究问题聚焦于如何通过声学特征准确识别人类语音中蕴含的多种基本情感状态。TESS基于经典的西北大学听觉测试第六版（NU-6）设计，包含两位女演员以七种不同情感（中性、快乐、悲伤、愤怒、恐惧、厌恶和惊喜）朗读的200个目标单词，共计2800条语音样本。该数据集自发布以来，已成为语音情感分析、听觉心理学及人机交互研究中的重要基准资源，为情感计算模型的训练与评估提供了可靠的数据支持。

当前挑战

在语音情感识别领域，TESS致力于解决从语音信号中准确提取并分类离散情感状态的挑战，这一任务因情感表达的个体差异、文化背景影响及声学特征的复杂性而尤为困难。数据集的构建过程同样面临诸多挑战：首先，情感语音的采集需要演员在受控环境下精确模拟特定情感，确保情感表达的纯粹性与一致性；其次，样本需覆盖不同年龄段的说话者以增强泛化能力，但受限于参与者数量，数据多样性可能不足；此外，音频录制需在专业声学环境中进行，以消除背景噪声干扰，保证信号质量。这些因素共同构成了数据集在代表性与实用性方面的核心挑战。

常用场景

经典使用场景

在语音情感识别领域，多伦多情感语音集（TESS）作为一项经典资源，常被用于构建和评估情感分类模型。该数据集收录了两位女演员以七种不同情感状态朗读的200个目标单词，其高质量、结构化的语音样本为研究者提供了标准化的实验材料。通过提取音频的声学特征如梅尔频率倒谱系数、基频和能量等，机器学习与深度学习模型得以在此数据集上进行训练与验证，从而推动情感识别算法的性能优化与比较研究。

解决学术问题

TESS数据集的构建有效应对了情感计算研究中数据稀缺与标注一致性的挑战。其精确的情感标签与受控的录音条件，为探索声学特征与情感状态之间的映射关系提供了可靠基础。该数据集助力解决了跨说话人情感识别、小样本情感分类以及情感模型泛化能力等核心学术问题，促进了语音情感分析领域的理论深化与方法创新。

衍生相关工作

围绕TESS数据集，学术界已衍生出一系列经典研究工作。这些工作不仅包括基于传统机器学习方法的情感分类器设计，更延伸至利用卷积神经网络、循环神经网络以及注意力机制等深度学习架构进行端到端情感建模。部分研究进一步探索了多模态情感融合、跨语料库迁移学习以及针对特定情感如“愉悦惊喜”的细粒度分析，持续拓展了语音情感识别的技术边界与应用场景。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集