marcel-gohsen/slurp
收藏Hugging Face2024-01-19 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/marcel-gohsen/slurp
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: id
dtype: int64
- name: transcript
dtype: string
- name: audio
dtype: audio
- name: intent
dtype: string
- name: 'slots:'
sequence: string
- name: cam
dtype: string
splits:
- name: train
num_bytes: 2922022234.136
num_examples: 50628
- name: test
num_bytes: 709980145.726
num_examples: 13078
- name: devel
num_bytes: 477536022.9
num_examples: 8690
download_size: 3916202128
dataset_size: 4109538402.762
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: test
path: data/test-*
- split: devel
path: data/devel-*
---
数据集信息:
特征:
- 名称:id,数据类型:64位整数(int64)
- 名称:transcript(转录文本),数据类型:字符串
- 名称:audio(音频),数据类型:音频类型
- 名称:intent(意图),数据类型:字符串
- 名称:slots:(槽位),数据类型:字符串序列
- 名称:cam,数据类型:字符串
数据集拆分:
- 拆分名称:train(训练集),占用字节数:2922022234.136,样本数量:50628
- 拆分名称:test(测试集),占用字节数:709980145.726,样本数量:13078
- 拆分名称:devel(开发集),占用字节数:477536022.9,样本数量:8690
下载总大小:3916202128 字节
数据集总大小:4109538402.762 字节
配置项:
- 配置名称:default(默认配置),数据文件:
- 拆分train:对应路径 data/train-*
- 拆分test:对应路径 data/test-*
- 拆分devel:对应路径 data/devel-*
提供机构:
marcel-gohsen
原始信息汇总
数据集概述
数据集特征
- id: 数据类型为
int64 - transcript: 数据类型为
string - audio: 数据类型为
audio - intent: 数据类型为
string - slots: 数据类型为
string的序列 - cam: 数据类型为
string
数据集划分
- train: 包含 50628 个样本,大小为 2922022234.136 字节
- test: 包含 13078 个样本,大小为 709980145.726 字节
- devel: 包含 8690 个样本,大小为 477536022.9 字节
数据集大小
- 下载大小: 3916202128 字节
- 数据集总大小: 4109538402.762 字节
配置信息
- config_name: default
- 数据文件路径:
- train:
data/train-* - test:
data/test-* - devel:
data/devel-*
- train:
- 数据文件路径:
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个多模态(音频+文本)的语音指令数据集,包含72,396条日常场景的语音指令记录,涵盖日历管理、天气查询、音乐控制等91种意图类型。数据集已划分为训练集、测试集和开发集,适用于语音识别和自然语言理解任务。
以上内容由遇见数据集搜集并总结生成



