SALMon

Hugging Face2024-09-12 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/slprl/SALMon

下载链接

链接失效反馈

官方服务：

资源简介：

SALMon🍣数据集用于评估口语语言模型在处理语音文本之外的声学内容方面的能力，通过基于建模的度量标准进行评估。该数据集包含多个基准，分为声学一致性和语义-声学对齐两大类。每个基准专注于特定的方面，如说话者一致性或情感对齐。数据集提供音频样本，其中正确的样本应获得比错误样本更高的似然分数。数据集可以整体访问，也可以按特定任务或类别进行筛选。它包括任务名称、样本索引、正音频（正确样本）和负音频（干扰样本）等字段。

创建时间：

2024-09-12

原始信息汇总

SALMon 数据集概述

数据集信息

配置名称及特征

bg_alignment
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 98481538.0字节
- 下载大小: 86473187字节
- 数据集大小: 98481538.0字节
bg_all_consistency
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 71817890.0字节
- 下载大小: 71809428字节
- 数据集大小: 71817890.0字节
bg_domain_consistency
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 73144570.0字节
- 下载大小: 73133674字节
- 数据集大小: 73144570.0字节
gender_consistency
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 75972074.0字节
- 下载大小: 72703989字节
- 数据集大小: 75972074.0字节
rir_consistency
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 70107210.0字节
- 下载大小: 66529316字节
- 数据集大小: 70107210.0字节
sentiment_alignment
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 56199050.0字节
- 下载大小: 46345688字节
- 数据集大小: 56199050.0字节
sentiment_consistency
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 72137428.0字节
- 下载大小: 71829708字节
- 数据集大小: 72137428.0字节
speaker_consistency
- 特征:
  - task: string
  - ind: int64
  - positive_audio: audio
  - negative_audio: audio
- 分割:
  - train: 200个样本, 76493394.0字节
- 下载大小: 72947317字节
- 数据集大小: 76493394.0字节

配置文件

all
- 数据文件:
  - train: 包含多个子任务的训练数据
all_consistency
- 数据文件:
  - train: 包含多个一致性子任务的训练数据
all_alignment
- 数据文件:
  - train: 包含多个对齐子任务的训练数据
bg_alignment
- 数据文件:
  - train: bg_alignment子任务的训练数据
bg_all_consistency
- 数据文件:
  - train: bg_all_consistency子任务的训练数据
bg_domain_consistency
- 数据文件:
  - train: bg_domain_consistency子任务的训练数据
gender_consistency
- 数据文件:
  - train: gender_consistency子任务的训练数据
rir_consistency
- 数据文件:
  - train: rir_consistency子任务的训练数据
sentiment_alignment
- 数据文件:
  - train: sentiment_alignment子任务的训练数据
sentiment_consistency
- 数据文件:
  - train: sentiment_consistency子任务的训练数据
speaker_consistency
- 数据文件:
  - train: speaker_consistency子任务的训练数据

数据字段

task: 特定任务的名称
ind: 样本在任务中的索引
positive_audio: 正确的音频样本
- array: 音频样本数组
- sample_rate: 音频采样率
- path: 音频文件保存路径
negative_audio: 干扰音频样本
- array: 音频样本数组
- sample_rate: 音频采样率
- path: 音频文件保存路径

搜集汇总

数据集介绍

构建方式

SALMon数据集的构建旨在评估口语语言模型在处理超越文本内容的声学信息方面的能力。该数据集通过模型评分的方式，要求模型对两个音频样本进行评分，并判断正确的样本是否获得了更高的似然分数。具体而言，SALMon将评估任务分为多个基准，分别测量声学一致性和语义-声学对齐性。声学一致性评估真实录音是否比在录音中途改变声学元素（如说话者或背景噪音）的样本获得更高的似然分数；语义-声学对齐性则评估声学内容与语义内容匹配的样本是否比不匹配的样本获得更高的似然分数。

使用方法

SALMon数据集的使用方法灵活多样，用户可以通过Hugging Face的`datasets`库加载数据集。例如，加载整个数据集可以使用`load_dataset('slprl/salmon', 'all')`，而加载特定任务如`speaker_consistency`则可以使用`load_dataset('slprl/salmon', 'speaker_consistency')`。此外，用户还可以通过Google Drive获取原始音频文件，以便在需要时进行自定义处理。数据集的使用不仅限于模型评估，还可以用于音频处理、语音识别等领域的研究。

背景与挑战

背景概述

SALMon数据集由以色列希伯来大学的Adi Yossi实验室于2024年发布，旨在评估语音语言模型在超越文本内容之外的声学内容处理能力。该数据集通过建模度量方法，要求模型为两个音频样本分配似然分数，并验证正确样本是否获得更高的似然分数。SALMon数据集分为多个基准测试，主要涵盖声学一致性和语义-声学对齐两大类别。声学一致性测试模型在面对相同内容但声学元素（如说话者或背景噪声）变化的音频时，能否正确识别真实录音。语义-声学对齐则评估模型在语音内容与声学特征匹配时是否赋予更高似然分数。该数据集的发布为语音语言模型的研究提供了新的评估标准，推动了相关领域的发展。

当前挑战

SALMon数据集在构建和应用过程中面临多重挑战。首先，声学一致性和语义-声学对齐的评估需要高度精确的音频样本对，这对数据采集和标注提出了严格要求。其次，不同声学元素（如说话者、背景噪声、情感表达）的变化需要在实验中精确控制，以确保评估结果的可靠性。此外，数据集的构建需要处理大规模音频数据，这对存储和计算资源提出了较高要求。在应用层面，如何设计高效的建模度量方法以准确评估模型的性能，仍是一个亟待解决的问题。这些挑战不仅影响了数据集的构建过程，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

SALMon数据集在语音语言模型评估领域具有重要应用，尤其是在评估模型对音频内容的理解能力方面。通过提供正负样本对的音频数据，SALMon能够帮助研究人员测试模型是否能够正确区分语义与声学特征的一致性。例如，模型需要判断在相同文本内容下，不同声学特征（如说话者、背景噪音）的音频样本中，哪一个更符合语义预期。这种评估方式广泛应用于语音识别、情感分析以及多模态学习等领域。

解决学术问题

SALMon数据集解决了语音语言模型在声学一致性及语义-声学对齐方面的评估难题。传统语音模型往往仅关注文本内容，而忽略了声学特征对语义理解的影响。SALMon通过设计多样化的任务（如说话者一致性、背景噪音一致性等），为研究者提供了量化模型性能的工具，推动了语音语言模型在复杂声学环境下的鲁棒性研究。这一数据集的出现填补了语音模型评估领域的空白，为相关学术研究提供了重要支持。

实际应用

在实际应用中，SALMon数据集为语音助手、智能客服以及情感分析系统等提供了重要的评估基准。例如，在智能客服场景中，系统需要准确识别用户语音中的情感信息，以提供更人性化的服务。通过使用SALMon数据集，开发者可以测试和优化模型在不同声学环境下的表现，确保系统在实际应用中具备更高的准确性和鲁棒性。此外，该数据集还可用于多模态学习的研究，提升语音与文本的协同理解能力。

数据集最近研究