quocanh34/soict_train_dataset

Name: quocanh34/soict_train_dataset
Creator: quocanh34
Published: 2023-08-25 15:45:58
License: 暂无描述

Hugging Face2023-08-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/quocanh34/soict_train_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

数据集名为asr_spoken_norm_train_data，包含多个特征字段，如id、sentence、intent、sentence_annotation、entities、file、audio、origin_transcription和sentence_norm。数据集分为训练集和测试集，训练集包含6729个样本，测试集包含748个样本。数据集的总下载大小为918573512字节，总大小为3874415868.0字节。

提供机构：

quocanh34

原始信息汇总

数据集概述

数据集信息

特征列表:
- id: 类型为字符串。
- sentence: 类型为字符串。
- intent: 类型为字符串。
- sentence_annotation: 类型为字符串。
- entities: 包含以下子特征:
  - type: 类型为字符串。
  - filler: 类型为字符串。
- file: 类型为字符串。
- audio: 包含以下子特征:
  - array: 类型为浮点数序列。
  - path: 类型为字符串。
  - sampling_rate: 类型为64位整数。
- origin_transcription: 类型为字符串。
- sentence_norm: 类型为字符串。

数据集划分

训练集:
- 字节数: 3486818827.8416476
- 样本数: 6729
测试集:
- 字节数: 387597040.15835226
- 样本数: 748

数据集大小

下载大小: 918573512字节
数据集总大小: 3874415868.0字节

5,000+

优质数据集

54 个

任务类型

进入经典数据集