spoken-language-understanding-research-datasets

github2024-01-16 更新2024-05-31 收录

下载链接：

https://github.com/sonos/spoken-language-understanding-research-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于语音语言理解研究的多个子数据集，包括SmartLights和SmartSpeaker助手的数据。SmartLights数据集用于交叉验证，包含6种意图，用于控制灯光的开关、亮度或颜色变化。SmartSpeaker数据集用于训练/测试，包含英语和法语两种语言，用于控制智能扬声器的播放控制和音乐播放。

This dataset encompasses multiple sub-datasets for research in spoken language understanding, including data from SmartLights and SmartSpeaker assistants. The SmartLights dataset is utilized for cross-validation, containing six intents for controlling the on/off state, brightness, or color changes of lights. The SmartSpeaker dataset is designated for training and testing purposes, featuring both English and French languages, and is used for controlling playback and music playback on smart speakers.

创建时间：

2018-10-17

原始信息汇总

数据集概述

本数据集包含与出版物相关的公开数据集，该出版物题为“Spoken Language Understanding on the Edge”，于2019年被接受在5th Workshop on Energy Efficient Machine Learning and Cognitive Computing与NeurIPS 2019同时举行。数据集旨在促进可重复性和对SLU社区的实用性，包含数千条带有意图和槽位的文本查询，以及对应的语音记录。

数据集描述

SmartLights助理：
- 用于交叉验证，包含6个意图，涉及灯光的开关、亮度及颜色调整。
- 词汇量约400词。
- 具体意图包括：
  - DecreaseBrightness (296 queries, 槽位: room)
  - IncreaseBrightness (296 queries, 槽位: room)
  - SetLightBrightness (296 queries, 槽位: room, brightness)
  - SetLightColor (300 queries, 槽位: room, color)
  - SwitchLightOff (299 queries, 槽位: room)
  - SwitchLightOn (278 queries, 槽位: room)
SmartSpeaker助理：
- 英语和法语版本，用于训练/测试。
- 训练集包含9个意图（法语8个），涉及智能扬声器的控制，如音量调整、音乐播放控制等。
- 英语词汇量超过65k词，法语超过70k词。
- 英语意图包括：
  - NextSong (200 queries, 无槽位)
  - PreviousSong (199 queries, 无槽位)
  - SpeakerInterrupt (172 queries, 无槽位)
  - ResumeMusic (200 queries, 无槽位)
  - VolumeDown (215 queries, 槽位: volume_level_absolute)
  - VolumeUp (260 queries, 槽位: volume_level_absolute)
  - VolumeSet (100 queries, 槽位: volume_level_absolute, volume_level_percent)
  - GetInfos (199 queries, 槽位: music_item)
  - PlayMusic (1508 queries, 槽位: song_name, artist_name, album_name, playlist_mode, playlist_name)
- 法语意图包括：
  - NextSong (126 queries, 无槽位)
  - PreviousSong (62 queries, 无槽位)
  - SpeakerInterrupt (421 queries, 无槽位)
  - ResumeMusic (107 queries, 无槽位)
  - VolumeShift (437 queries, 槽位: volume_action)
  - VolumeSet (229 queries, 槽位: volume_level_absolute, volume_level_percent, volume_level_relative)
  - GetInfos (62 queries, 无槽位)
  - PlayMusic (548 queries in train, 1500 queries in test, 槽位: song_name, artist_name, album_name, playlist_mode, playlist_name)

数据集访问

数据集访问需通过此表单申请，将很快获得访问权限。

许可证摘要

数据集仅限于学术和/或研究用途，禁止商业使用。任何重新发布必须保证数据集未经修改，并遵守相同的许可条款。任何出版物必须包含对原始出版物的完整引用。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程结合了文本查询生成与语音采集的双重策略。首先，通过内部数据生成管道创建了数千条文本查询，每条查询均标注了意图和槽位信息。随后，这些文本查询通过众包平台进行语音录制，确保每条文本对应一条语音样本。为了模拟远场环境，数据集还包含了通过麦克风阵列在2米距离处录制的语音样本，进一步增强了数据的多样性和实用性。

特点

该数据集涵盖了智能灯光和智能音箱两个领域，分别用于交叉验证和训练测试。智能灯光数据集包含6种意图，涉及灯光的开关、亮度调节和颜色设置，词汇量约为400词。智能音箱数据集则包含英语和法语两种语言，分别包含9种和8种意图，词汇量超过65,000词和70,000词。此外，数据集还提供了丰富的槽位信息，如房间名称、亮度值、颜色、音量级别等，为语音理解研究提供了多维度的标注支持。

使用方法

数据集的使用方法通过提供的`dataset_handler.py`脚本实现，支持Python 2和3的兼容性。用户可以通过`TrainTestDataset`和`CrossValDataset`类加载数据，并利用相关方法获取音频文件、文本转录和标注信息。例如，`get_audio_file`方法可用于获取特定文本查询对应的音频文件，`get_labels_from_text`方法则用于从文本中提取标注信息。此外，脚本还支持从音频文件中提取转录和标注信息，为研究提供了便捷的数据处理工具。

背景与挑战

背景概述

spoken-language-understanding-research-datasets数据集由Snips团队于2019年创建，旨在推动边缘设备上的语音理解技术研究。该数据集的核心研究问题在于如何通过有限的资源实现高效的语音理解，特别是在智能家居和智能音箱等设备中的应用。数据集包含多个领域的文本查询及其对应的意图和槽位信息，涵盖了智能灯光和智能音箱两个主要场景。这些数据通过众包方式收集，并生成了远场录音，以模拟真实使用环境。该数据集的发布为语音理解领域的研究提供了重要的实验基础，尤其在跨语言和多任务学习方面具有显著影响力。

当前挑战

spoken-language-understanding-research-datasets数据集在构建和应用过程中面临多重挑战。首先，语音理解任务本身具有复杂性，尤其是在多语言和多领域场景下，如何准确捕捉用户意图并提取关键信息是一个核心难题。其次，数据集的构建过程中，部分文本查询未能成功生成录音，这为数据的完整性和一致性带来了挑战。此外，远场录音的生成需要精确控制环境噪声和麦克风阵列的位置，以确保数据的真实性和可用性。最后，数据集的开放性和可重复性要求研究人员在遵守严格许可条款的同时，确保数据的正确使用和引用，这对数据的管理和分发提出了更高的要求。

常用场景

经典使用场景

在语音理解研究领域，spoken-language-understanding-research-datasets数据集被广泛应用于模型训练与测试。该数据集包含智能灯光和智能音箱两个领域的语音查询，涵盖了多种意图和槽位，特别适合用于跨验证和训练/测试场景。研究者可以通过该数据集评估模型在不同语言和复杂场景下的表现，从而优化语音理解系统的性能。

解决学术问题

该数据集为语音理解研究提供了丰富的多语言、多领域数据，解决了模型在复杂场景下的泛化能力问题。通过提供带有意图和槽位标注的语音查询，研究者能够更准确地训练和评估模型，特别是在边缘计算环境下，如何高效处理语音理解任务成为可能。该数据集的出现推动了语音理解技术在低资源环境中的应用研究。

衍生相关工作

基于spoken-language-understanding-research-datasets数据集，许多经典研究工作得以展开。例如，研究者开发了针对边缘计算优化的语音理解模型，显著降低了计算资源消耗。此外，该数据集还催生了多语言语音理解系统的研究，推动了跨语言语音助手的发展。相关成果已在多个顶级会议和期刊上发表，进一步推动了语音理解技术的进步。

以上内容由遇见数据集搜集并总结生成