SALMon_pgslm

Hugging Face2025-10-29 更新2025-10-30 收录

下载链接：

https://huggingface.co/datasets/SpeechPPL/SALMon_pgslm

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个音频数据集，包含了用于背景对齐、背景一致性、领域一致性、性别一致性、房间冲击响应一致性、情感对齐和情感一致性等任务的音频样本。每个样本包括正负样本的tokenwise损失、音频文件以及相关的原始单元数据。数据集分为训练集，每个任务配置包含200个样本。

创建时间：

2025-10-20

原始信息汇总

SALMon_pgslm 数据集概述

数据集基本信息

数据集地址：https://huggingface.co/datasets/SpeechPPL/SALMon_pgslm
配置数量：8个独立配置
总样本量：1600个样本（每个配置200个样本）

配置详情

bg_alignment

样本数量：200
数据集大小：99.5 MB
下载大小：87.2 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

bg_all_consistency

样本数量：200
数据集大小：171.1 MB
下载大小：170.8 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

bg_domain_consistency

样本数量：200
数据集大小：173.6 MB
下载大小：173.3 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

gender_consistency

样本数量：200
数据集大小：179.0 MB
下载大小：174.4 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

rir_consistency

样本数量：200
数据集大小：172.4 MB
下载大小：172.1 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

sentiment_alignment

样本数量：200
数据集大小：56.8 MB
下载大小：46.8 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

sentiment_consistency

样本数量：200
数据集大小：173.9 MB
下载大小：173.0 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

speaker_consistency

样本数量：200
数据集大小：180.1 MB
下载大小：175.5 MB
特征字段：任务类型、索引、正负样本词级损失、模型生成音频、正负样本音频、提示音频、编码参数、模型采样率、困惑度验证

数据特征

音频采样率：16000 Hz
数据类型：音频、数值、字符串
主要特征：
- 任务类型标识
- 样本索引
- 正负样本词级损失序列
- 模型生成音频延续
- 正负样本音频
- 提示音频
- 正负样本原始单元
- 编码帧率
- 编码深度
- 模型采样率
- 困惑度验证

数据划分

所有配置：仅包含训练集划分
每个配置：200个训练样本

搜集汇总

数据集介绍

构建方式

在语音生成模型评估领域，SALMon_pgslm数据集通过精心设计的对比实验框架构建而成。该数据集包含八个独立配置，分别针对背景对齐、性别一致性和情感连续性等关键维度，每个配置均采用统一的采样率16kHz音频数据。构建过程中，系统化采集了正负样本对及其对应的词元级损失序列，同时整合了模型生成音频与原始提示音频，确保评估数据的多样性和可比性。

使用方法

研究人员可通过加载特定配置名称直接调用数据集，例如选择bg_alignment或sentiment_consistency等模块进行针对性实验。每个配置均提供完整的训练分割，包含模型生成音频、原始对比样本及细粒度损失指标。使用时可基于提示音频与生成音频的对比分析，结合词元级损失序列评估模型在特定维度上的表现，亦可通过跨配置联合实验全面衡量语音生成模型的综合能力。

背景与挑战

背景概述

在语音生成技术迅猛发展的背景下，SALMon_pgslm数据集应运而生，专注于评估生成语音模型在语义对齐与一致性方面的表现。该数据集由语音处理领域的研究团队构建，旨在解决生成语音在情感、说话人特征、背景环境等多维度属性上的可控性与稳定性问题。其核心研究问题聚焦于如何量化生成语音与预期语义之间的匹配程度，以及在不同扰动条件下模型输出的鲁棒性，为语音合成与语音理解领域的模型优化提供了关键基准。

当前挑战

SALMon_pgslm数据集致力于应对生成语音模型在语义对齐与一致性评估中的核心挑战，包括情感表达、说话人身份、背景噪声等多属性协同控制的复杂性。在构建过程中，数据采集需平衡不同语音属性的覆盖范围与标注精度，同时确保音频质量与语义标签的可靠对应。此外，生成样本的量化评估涉及多模态特征提取与损失计算，对数据处理流程与计算资源提出了较高要求。

常用场景

经典使用场景

在语音生成模型的评估领域，SALMon_pgslm数据集通过其多配置结构为模型鲁棒性测试提供了系统化框架。该数据集整合了背景对齐、情感一致性和说话人一致性等任务，利用正负样本的tokenwise损失对比和音频连续性生成，为模型在复杂声学环境中的表现建立了标准化评估基准。

解决学术问题

该数据集有效解决了语音生成模型中长期存在的语义对齐与声学特征稳定性问题。通过提供细粒度的tokenwise损失分析和多维度一致性验证，它帮助研究者量化模型在性别特征保持、背景噪声适应等方面的性能缺陷，为改进自回归语音模型的鲁棒性提供了关键数据支撑。

实际应用

在智能语音助手和实时语音合成系统中，该数据集可应用于声学环境自适应算法的开发。其包含的室内脉冲响应一致性数据能优化设备在复杂场景下的语音生成质量，而情感对齐模块则为个性化语音交互系统提供了重要的训练验证依据。

数据集最近研究