spoken-language-understanding-research-datasets

github2024-01-16 更新2024-05-31 收录

下载链接：

https://github.com/snipsco/spoken-language-understanding-research-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含用于口语理解研究的公开数据，具体包括两个领域的数据集：`SmartLights`助手和`SmartSpeaker`助手（英语和法语）。`SmartLights`数据集用于交叉验证，包含6个意图，用于控制灯光的开关、亮度或颜色变化。`SmartSpeaker`数据集用于训练/测试，包含控制智能扬声器的多种意图，如音量控制、音乐播放控制等。

This dataset comprises publicly available data for spoken language understanding research, specifically including datasets from two domains: the `SmartLights` assistant and the `SmartSpeaker` assistant (available in both English and French). The `SmartLights` dataset is utilized for cross-validation and encompasses six intents related to controlling the on/off state, brightness, or color changes of lights. The `SmartSpeaker` dataset is designated for training/testing purposes and contains a variety of intents for controlling smart speakers, such as volume adjustment and music playback control.

创建时间：

2018-10-17

原始信息汇总

数据集概述

本数据集包含两个主要领域的语音理解数据：

SmartLights：
- 用于交叉验证的助手，包含6个意图，用于控制灯光的开关、亮度或颜色变化。
- 词汇量约400字。
- 具体意图包括：
  - DecreaseBrightness (296 queries, 带槽位room)
  - IncreaseBrightness (296 queries, 带槽位room)
  - SetLightBrightness (296 queries, 带槽位room, brightness)
  - SetLightColor (300 queries, 带槽位room, color)
  - SwitchLightOff (299 queries, 带槽位room)
  - SwitchLightOn (278 queries, 带槽位room)
SmartSpeaker：
- 英语和法语两种语言的助手，用于训练/测试。
- 英语助手包含9个意图，法语助手包含8个意图，用于控制智能扬声器的播放控制、音乐播放等。
- 英语词汇量超过65,000字，法语词汇量超过70,000字。
- 英语意图包括：
  - NextSong (200 queries, 无槽位)
  - PreviousSong (199 queries, 无槽位)
  - SpeakerInterrupt (172 queries, 无槽位)
  - ResumeMusic (200 queries, 无槽位)
  - VolumeDown (215 queries, 带槽位volume_level_absolute)
  - VolumeUp (260 queries, 带槽位volume_level_absolute)
  - VolumeSet (100 queries, 带槽位volume_level_absolute, volume_level_percent)
  - GetInfos (199 queries, 带槽位music_item)
  - PlayMusic (1508 queries, 带槽位song_name, artist_name, album_name, playlist_mode, playlist_name)
- 法语意图包括：
  - NextSong (126 queries, 无槽位)
  - PreviousSong (62 queries, 无槽位)
  - SpeakerInterrupt (421 queries, 无槽位)
  - ResumeMusic (107 queries, 无槽位)
  - VolumeShift (437 queries, 带槽位volume_action)
  - VolumeSet (229 queries, 带槽位volume_level_absolute, volume_level_percent, volume_level_relative)
  - GetInfos (62 queries, 无槽位)
  - PlayMusic (548 queries in train, 1500 queries in test, 带槽位song_name, artist_name, album_name, playlist_mode, playlist_name)

数据集使用许可

仅供学术和/或研究目的使用。
不允许商业用途。
重新发布时，数据集必须保持不变，并遵守相同的许可条款。
任何发布必须包含对原始论文的完整引用。

数据集访问

访问数据需填写指定表格。
数据集由Sonos Voice Experience Team管理。

搜集汇总

数据集介绍

构建方式

该数据集的构建过程采用了多阶段的数据生成与收集策略。首先，通过内部数据生成管道创建了数千条带有意图和槽位标注的文本查询。随后，这些文本查询通过众包平台进行语音录制，确保每条文本查询对应一条语音样本。为了模拟远场环境，数据集还包含了通过麦克风阵列在2米距离处录制的语音样本。这种构建方式不仅确保了数据的多样性和真实性，还为远场语音理解研究提供了宝贵的资源。

使用方法

数据集的使用方法通过提供的`dataset_handler.py`脚本实现。用户可以通过`TrainTestDataset`和`CrossValDataset`类加载数据，并获取音频文件、文本转录和标注信息。例如，使用`CrossValDataset.from_dir`加载智能灯光数据集后，可以通过`get_audio_file`和`get_labels_from_text`方法分别获取音频文件和对应的标注。类似地，智能音箱数据集也可以通过`TrainTestDataset.from_dir`加载，并使用相同的方法进行数据访问。这种灵活的使用方式为研究者提供了便捷的数据处理工具。

背景与挑战

背景概述

spoken-language-understanding-research-datasets数据集由Saade A.等人于2019年创建，旨在推动边缘设备上的语音理解研究。该数据集最初在NeurIPS 2019的第五次能源高效机器学习和认知计算研讨会上发布，并由Snips团队贡献，后由Sonos语音体验团队管理。数据集包含多个领域的文本查询及其对应的意图和槽位标注，涵盖了智能灯光和智能音箱两个应用场景。其核心研究问题在于如何在资源受限的边缘设备上实现高效的语音理解，为语音助手技术的优化提供了重要的实验基础。该数据集的公开不仅促进了相关研究的可重复性，还为语音理解社区提供了宝贵的资源。

当前挑战

spoken-language-understanding-research-datasets数据集在解决语音理解领域问题时面临多重挑战。首先，语音理解任务需要同时处理意图识别和槽位填充，这对模型的语义解析能力提出了较高要求。其次，数据集中的语音数据通过众包方式收集，语音质量和一致性难以保证，尤其是远场录音环境下，背景噪声和回声可能影响模型性能。此外，部分文本查询缺乏对应的语音记录，增加了数据处理的复杂性。在构建过程中，研究人员还需应对多语言（如英语和法语）的语义差异，以及大规模词汇表带来的计算和存储压力。这些挑战共同构成了该数据集在语音理解研究中的核心难点。

常用场景

经典使用场景

在语音理解研究领域，spoken-language-understanding-research-datasets被广泛用于训练和测试智能助手系统。该数据集包含多种意图和槽位的文本查询及其对应的语音录音，特别适用于跨验证和训练/测试场景。例如，在智能灯光控制系统中，数据集用于验证不同房间灯光亮度、颜色调整的准确性；在智能音箱系统中，数据集则用于测试音量控制、歌曲播放等功能的语音识别效果。

解决学术问题

该数据集有效解决了语音理解研究中的多个学术问题，特别是在边缘计算环境下的语音识别和意图理解。通过提供丰富的文本查询和语音录音，数据集帮助研究者验证和优化语音理解模型在低功耗设备上的性能。此外，数据集的跨语言设计（英语和法语）为多语言语音理解研究提供了重要支持，推动了语音助手在不同语言环境中的普及和应用。

实际应用

在实际应用中，spoken-language-understanding-research-datasets为智能家居和智能音箱系统的开发提供了重要支持。通过使用该数据集，开发者能够训练出更加精准的语音识别模型，提升用户与智能设备的交互体验。例如，在智能灯光系统中，用户可以通过语音指令精确控制灯光的亮度和颜色；在智能音箱系统中，用户可以通过语音指令播放特定歌曲或调整音量，极大地提升了设备的智能化水平。

数据集最近研究