UnSLU-BENCH

Name: UnSLU-BENCH
Creator: 都灵理工大学
Published: 2025-05-22 00:13:57
License: 暂无描述

arXiv2025-05-22 更新2025-05-28 收录

下载链接：

https://github.com/koudounasalkis/UnSLU-BENCH

下载链接

链接失效反馈

官方服务：

资源简介：

UnSLU-BENCH是一个用于语音语言理解中机器遗忘的基准数据集，包含四个用于意图分类的数据集，分别涵盖四种语言。这些数据集包括英语的Fluent Speech Commands (FSC)和SLURP，意大利语的ITALIC，以及德语和法语的SpeechMASSIVE。每个数据集都被用于评估两种Transformer模型在遗忘特定说话者数据时的表现。UnSLU-BENCH旨在推动语音任务中隐私保护技术的发展，为构建更加可靠的语音助手系统提供支持。

UnSLU-BENCH is a benchmark dataset for machine forgetting in spoken language understanding. It contains four datasets for intent classification covering four languages, namely Fluent Speech Commands (FSC) and SLURP for English, ITALIC for Italian, and SpeechMASSIVE for German and French. Each dataset is used to evaluate the performance of two Transformer models when the models forget data from specific speakers. UnSLU-BENCH aims to promote the development of privacy-preserving technologies in speech tasks, providing support for building more reliable voice assistant systems.

提供机构：

都灵理工大学

创建时间：

2025-05-22

搜集汇总

数据集介绍

构建方式

UnSLU-BENCH数据集的构建基于四种公开可用的语音理解数据集，涵盖英语、意大利语、德语和法语四种语言。具体包括Fluent Speech Commands (FSC)和SLURP（英语）、ITALIC（意大利语）以及SpeechMASSIVE（德语和法语）。为确保数据多样性，研究团队对SLURP数据集进行了重新划分，创建了独立的说话人分割，以满足机器遗忘技术对数据独立性的要求。每个数据集均选取至少包含100条语音样本的说话人作为遗忘对象，模拟真实场景下的数据删除请求。

特点

UnSLU-BENCH作为首个面向语音理解任务的机器遗忘基准测试，具有多语言、多模型架构的显著特点。该数据集不仅包含语义复杂度各异的31至60种意图分类任务，还针对每种语言数据集配置了两种Transformer模型（如wav2vec 2.0和HuBERT）。其创新性体现在提出了全局遗忘度量指标GUM，该指标综合考量遗忘效能、计算效率和模型效用三个维度，通过加权调和平均数实现多目标优化评估，为机器遗忘研究提供了更全面的评价体系。

使用方法

使用UnSLU-BENCH进行机器遗忘研究时，需首先在原始数据集上训练基础模型，随后应用八种不同的遗忘技术（包括负梯度法和SCRUB等方法）对指定说话人数据进行遗忘操作。评估阶段需计算三个核心指标：通过成员推理攻击(MIA)衡量遗忘效能，基于测试集F1分数评估模型效用，以及对比遗忘耗时与重新训练耗时的效率比。研究者可通过调整学习率等超参数来探索效用与效能之间的平衡关系，最终采用GUM指标对遗忘方法的综合性能进行量化比较。

背景与挑战

背景概述

UnSLU-BENCH数据集由意大利都灵理工大学的研究团队于2025年提出，是首个专注于口语理解（SLU）领域机器遗忘（Machine Unlearning）研究的基准测试集。该数据集针对语音助手中的隐私保护需求，通过四种语言（英语、意大利语、德语和法语）的意图分类任务，系统评估了八种机器遗忘技术的性能。其创新性在于提出了全局遗忘度量标准（GUM），从效能、效率和实用性三个维度综合评价遗忘效果，为《通用数据保护条例》（GDPR）框架下的'被遗忘权'实践提供了技术验证平台。

当前挑战

该数据集面临的核心挑战体现在两个层面：在领域问题层面，语音数据包含丰富的声纹特征，导致传统基于文本/图像的遗忘方法难以有效消除说话人身份信息；同时意图分类任务需要保持语义理解能力，在遗忘敏感数据时需平衡模型效用。在构建层面，需解决多语言语音数据对齐、说话人独立数据集划分（如重构SLURP数据集）、以及黄金模型（gold model）的基准建立等难题，其中跨语言声学特征差异和计算资源消耗成为主要瓶颈。

常用场景

经典使用场景

在语音助手的隐私保护研究中，UnSLU-BENCH数据集被广泛用于评估机器学习模型在遗忘特定说话人数据时的效果。该数据集包含四种语言的意图分类任务，为研究者提供了一个标准化的测试平台，用以验证不同遗忘技术在复杂语音理解场景中的表现。

解决学术问题

该数据集解决了语音理解领域中机器学习模型如何高效遗忘特定用户数据的核心问题。通过提供多语言、多模型的基准测试环境，它填补了现有研究在语音任务中遗忘技术评估的空白，并为隐私保护法规（如GDPR）的合规性提供了技术验证手段。

衍生相关工作

该数据集催生了多项关于高效遗忘算法的研究，如基于负梯度的改进方法（NG+）和分层遗忘技术（CF-k）。相关论文进一步探索了计算效率与遗忘效果的平衡，推动了语音理解领域隐私保护技术的标准化进程。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集