seven_swara_tags

Hugging Face2025-11-28 更新2025-11-29 收录

下载链接：

https://huggingface.co/datasets/ancamarginean/seven_swara_tags

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含文本及其相关属性，如说话者ID、性别、音频质量等信息。数据集分为训练集，共有7999个样本，提供了音频文件的多个评估指标，如信噪比、语音质量等。

创建时间：

2025-11-26

原始信息汇总

数据集概述

基本信息

数据集名称: ancamarginean/seven_swara_tags
总样本数量: 7999
训练集样本数量: 7999
下载大小: 666044字节
数据集大小: 3846726字节

数据特征

file_name: 文件名（字符串类型）
text: 文本内容（字符串类型）
speaker_id: 说话人ID（整型）
gender: 性别（字符串类型）
good_audio_path: 音频路径有效性（布尔类型）
phonemes: 音素（字符串类型）
utterance_pitch_mean: 语句音高均值（浮点型）
utterance_pitch_std: 语句音高标准差（浮点型）
snr: 信噪比（浮点型）
c50: 清晰度指标（浮点型）
speaking_rate: 语速（字符串类型）
stoi: 语音可懂度（浮点型）
si-sdr: 尺度不变信噪比（浮点型）
pesq: 语音质量评估（浮点型）
pitch: 音高（字符串类型）
noise: 噪声（字符串类型）
reverberation: 混响（字符串类型）
speech_monotony: 语音单调性（字符串类型）
sdr_noise: 噪声信噪比（字符串类型）
pesq_speech_quality: 语音质量（字符串类型）

数据划分

训练集: 包含7999个样本，占用3846726字节存储空间

配置文件

默认配置: 数据文件路径为data/train-*

搜集汇总

数据集介绍

构建方式

在语音数据处理领域，seven_swara_tags数据集通过系统化的采集流程构建而成。该数据集收录了7999个训练样本，每个样本包含完整的语音特征标注，涵盖音素序列、基频统计参数和音频质量指标等多维度信息。数据采集过程中严格记录说话人身份与性别特征，并针对音频路径有效性进行专业验证，确保数据源的可靠性与一致性。

特点

该数据集最显著的特点在于其丰富的声学特征标注体系。除基础文本转录外，还精确量化了语音的基频分布特性，包括均值与标准差统计量，同时集成信噪比、STOI清晰度指标和PESQ语音质量评估等专业参数。特别值得关注的是对语音单调性、噪声干扰和混响效应的分级标注，为语音质量多维度分析提供了完整的数据支撑。

使用方法

针对语音处理研究需求，该数据集可直接应用于声学模型训练与语音质量评估任务。研究人员可通过标准数据加载接口访问训练集，利用预设的特征字段进行模型开发。数据集的标准化格式支持端到端的语音特征提取流程，特别适合用于语音增强、说话人特征分析和语音质量客观评估等研究场景的基准测试。

背景与挑战

背景概述

在语音计算研究领域，七音阶标注数据集的构建标志着对印度古典音乐语音特征系统性探索的重要进展。该数据集由专业研究团队于近年开发，聚焦于卡纳提克音乐中七个基本音阶（Swara）的声学特性量化分析。通过整合多维度语音参数如基频统计量、信噪比和语音质量指标，该资源为音乐语音计算与跨文化音乐技术研究提供了结构化数据支撑，推动了传统音乐传承与计算分析方法深度融合的学术探索。

当前挑战

音乐语音数据集构建面临音高连续性捕捉与噪声干扰的双重挑战。七音阶标注需解决印度古典音乐中微分音程的精确标注问题，其音高波动模式较西方音乐体系更为复杂。数据采集过程中，环境混响与乐器伴奏导致语音清晰度下降，需通过STOI和PESQ等指标进行质量控制。同时，说话人音域差异与演唱风格的多样性，对构建统一评估标准提出了更高要求。

常用场景

衍生相关工作

基于该数据集衍生的经典工作包括端到端语音增强模型、多任务语音属性预测框架及低资源语音合成系统。例如，结合其音高与噪声标签的研究催生了对抗训练下的鲁棒声学建模方法，而说话人ID与性别标注则推动了个性化语音生成技术的发展。这些成果进一步拓展至音乐信息检索与情感语音分析等新兴方向，形成了持续创新的研究脉络。

数据集最近研究