SALMon_pGSLM-normalized

Hugging Face2026-04-10 更新2026-04-11 收录

下载链接：

https://huggingface.co/datasets/SpeechPPL/SALMon_pGSLM-normalized

下载链接

链接失效反馈

官方服务：

资源简介：

SALMon标准化数据集是一个多配置的音频处理数据集，旨在保留SALMon的配置文件夹布局同时规范化不同模型家族之间的模式差异。数据集包含多个配置（如bg_alignment、bg_all_consistency、gender_consistency等），每个配置专门针对不同的音频处理任务。数据集的主要特征包括任务标识、索引、正负样本的token-wise损失、模型生成的音频延续、原始音频数据、Hubert编码的原始单元等，所有音频数据的采样率均为16000 Hz。每个配置包含200个训练样本，并提供了详细的字节大小和示例数量信息。该数据集适用于音频生成、语音一致性检测、情感对齐等多种音频处理任务的研究与开发。

创建时间：

2026-04-10

原始信息汇总

数据集概述

基本信息

数据集名称: SALMon Normalized Dataset
数据集地址: https://huggingface.co/datasets/SpeechPPL/SALMon_pGSLM-normalized
描述: 该数据集保留了SALMon每个配置的文件夹结构，同时规范了不同模型系列之间不匹配的模式细节。

数据集配置

数据集包含8个独立的配置（config），每个配置对应一个特定的评估任务。

配置列表

bg_alignment
bg_all_consistency
bg_domain_consistency
gender_consistency
rir_consistency
sentiment_alignment
sentiment_consistency
speaker_consistency

通用数据特征

所有配置共享以下数据结构：

数据分割: 仅包含train分割。
样本数量: 每个配置均包含200个示例。
音频采样率: 所有音频字段的采样率均为16000 Hz。
核心特征字段:
- task: 任务标识（字符串）。
- ind: 索引（64位整数）。
- positive_sample_tokenwise_loss: 正样本词元级损失列表（32位浮点数列表）。
- negative_sample_tokenwise_loss: 负样本词元级损失列表（32位浮点数列表）。
- prompt_sample_tokenwise_loss: 提示样本词元级损失列表（32位浮点数列表）。
- model_generated_continuation: 模型生成的续接音频（音频）。
- positive_audio: 正样本音频（音频）。
- negative_audio: 负样本音频（音频）。
- positive_sample_raw_units: 正样本原始单元（HuBERT编码字符串）。
- negative_sample_raw_units: 负样本原始单元（HuBERT编码字符串）。
- prompt_audio: 提示音频（音频）。
- code_frame_rate: 编码帧率（64位整数）。
- code_depth: 编码深度（64位整数）。
- model_sampling_rate: 模型采样率（64位整数）。
- ppl_sanity: 困惑度检验（64位整数）。
- positive_continuation_raw_units: 正续接原始单元（HuBERT编码字符串）。
- negative_continuation_raw_units: 负续接原始单元（HuBERT编码字符串）。
- continuation_audio_positive: 正续接音频（音频）。
- continuation_audio_negative: 负续接音频（音频）。

配置间差异特征

部分特征的数据类型在配置间存在差异：

positive_continuation_tokenwise_loss 与 negative_continuation_tokenwise_loss:
- 在 bg_alignment 和 sentiment_alignment 配置中，此字段类型为null。
- 在其他所有配置中，此字段类型为64位浮点数列表。

数据规模详情

配置名称	数据集大小（字节）	下载大小（字节）	示例数量
bg_alignment	87,019,899	87,019,899	200
bg_all_consistency	207,143,109	207,143,109	200
bg_domain_consistency	210,303,767	210,303,767	200
gender_consistency	209,062,383	209,062,383	200
rir_consistency	202,129,101	202,129,101	200
sentiment_alignment	46,742,156	46,742,156	200
sentiment_consistency	210,124,373	210,124,373	200
speaker_consistency	209,864,717	209,864,717	200

搜集汇总

数据集介绍

构建方式

在语音生成模型评估领域，SALMon_pGSLM-normalized数据集的构建体现了对模型行为系统化分析的需求。该数据集通过整合多个特定任务配置，如背景对齐、情感一致性和说话人一致性等，每个配置均包含精心设计的正负样本对及提示音频。构建过程中，音频数据统一采用16kHz采样率，并利用HuBERT模型提取原始单元表征，确保了跨模型家族的数据格式归一化与可比性。这种结构化的构建方式旨在为模型生成音频的连续性与对齐属性提供标准化的评估基准。

使用方法

使用该数据集时，研究人员可依据具体评估目标选择相应的配置进行加载与分析。例如，若要考察模型在背景噪声下的生成一致性，可调用bg_domain_consistency配置；而情感对齐任务则对应sentiment_alignment配置。每个配置均以标准化的音频与损失序列格式呈现，支持直接计算模型生成结果与正负样本之间的差异度量。通过对比正负样本的损失分布或音频特征，研究者能够系统评估模型在特定属性上的表现，进而推动语音生成模型在可控性、鲁棒性等方面的算法改进。

背景与挑战

背景概述

在音频生成与语音语言模型融合的研究浪潮中，SALMon_pGSLM-normalized数据集应运而生，旨在解决生成式音频模型在语义对齐与一致性评估方面的核心难题。该数据集由相关研究团队构建，其名称中的“pGSLM”暗示了与语音语言模型的紧密关联，而“normalized”则体现了对跨模型家族数据模式进行标准化处理的努力。数据集通过多个配置任务，如背景对齐、情感一致性和说话人一致性等，系统性地评估模型在复杂音频属性上的生成能力，为推进可控音频合成技术提供了关键的基准测试资源。

当前挑战

该数据集致力于应对生成式音频模型在语义控制与属性一致性方面的挑战，具体包括模型在生成过程中保持背景、情感、说话人等多元属性连贯性的难题，以及在不同声学条件下维持稳定输出的困难。在构建过程中，研究者面临跨模型家族数据模式不匹配的挑战，需设计标准化方案以统一不同模型的输出表示；同时，确保高质量音频样本的采集与标注，以及在多任务配置下保持数据结构的严谨性与可扩展性，亦是数据集构建中的关键障碍。

常用场景

经典使用场景

在音频语言模型评估领域，SALMon_pGSLM-normalized数据集被广泛用于基准测试与模型性能分析。该数据集通过精心设计的配置任务，如背景对齐、情感一致性和说话人一致性等，为研究者提供了一个标准化的评估框架。经典使用场景涉及利用其多模态音频与文本特征，对生成式语音模型的连贯性、对齐能力和鲁棒性进行系统性评测，从而推动音频语言理解技术的迭代与优化。

解决学术问题

该数据集有效解决了音频生成与语言模型融合中的若干核心学术问题，包括跨模态对齐的量化评估、生成音频的语义一致性验证，以及模型对声学属性变化的鲁棒性分析。通过提供标准化的正负样本对比与损失计算，它使得研究者能够精确衡量模型在背景、情感、说话人等维度上的表现，为音频语言模型的可靠性、可控性研究奠定了数据基础，促进了该领域评估方法的科学化与规范化。

实际应用

在实际应用层面，SALMon_pGSLM-normalized数据集为智能语音助手、音频内容生成、交互式对话系统等场景提供了关键的评估工具。例如，在开发具有情感适应能力的语音合成系统时，可利用该数据集的情感对齐配置来优化生成音频的情感表达准确性；在构建多说话人语音生成模型时，则可通过说话人一致性任务确保音色特征的稳定传递，从而提升用户体验与系统实用性。

数据集最近研究