marcel-gohsen/slurp

Name: marcel-gohsen/slurp
Creator: marcel-gohsen
Published: 2024-01-19 13:36:41
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/marcel-gohsen/slurp

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: int64 - name: transcript dtype: string - name: audio dtype: audio - name: intent dtype: string - name: 'slots:' sequence: string - name: cam dtype: string splits: - name: train num_bytes: 2922022234.136 num_examples: 50628 - name: test num_bytes: 709980145.726 num_examples: 13078 - name: devel num_bytes: 477536022.9 num_examples: 8690 download_size: 3916202128 dataset_size: 4109538402.762 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: devel path: data/devel-* ---

数据集信息：特征： - 名称：id，数据类型：64位整数（int64） - 名称：transcript（转录文本），数据类型：字符串 - 名称：audio（音频），数据类型：音频类型 - 名称：intent（意图），数据类型：字符串 - 名称：slots:（槽位），数据类型：字符串序列 - 名称：cam，数据类型：字符串数据集拆分： - 拆分名称：train（训练集），占用字节数：2922022234.136，样本数量：50628 - 拆分名称：test（测试集），占用字节数：709980145.726，样本数量：13078 - 拆分名称：devel（开发集），占用字节数：477536022.9，样本数量：8690 下载总大小：3916202128 字节数据集总大小：4109538402.762 字节配置项： - 配置名称：default（默认配置），数据文件： - 拆分train：对应路径 data/train-* - 拆分test：对应路径 data/test-* - 拆分devel：对应路径 data/devel-*

提供机构：

marcel-gohsen

原始信息汇总

数据集概述

数据集特征

id: 数据类型为 int64
transcript: 数据类型为 string
audio: 数据类型为 audio
intent: 数据类型为 string
slots: 数据类型为 string 的序列
cam: 数据类型为 string

数据集划分

train: 包含 50628 个样本，大小为 2922022234.136 字节
test: 包含 13078 个样本，大小为 709980145.726 字节
devel: 包含 8690 个样本，大小为 477536022.9 字节

数据集大小

下载大小: 3916202128 字节
数据集总大小: 4109538402.762 字节

配置信息

config_name: default
- 数据文件路径:
  - train: data/train-*
  - test: data/test-*
  - devel: data/devel-*

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是一个多模态(音频+文本)的语音指令数据集，包含72,396条日常场景的语音指令记录，涵盖日历管理、天气查询、音乐控制等91种意图类型。数据集已划分为训练集、测试集和开发集，适用于语音识别和自然语言理解任务。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集