thanhduycao/soict_train_dataset

Name: thanhduycao/soict_train_dataset
Creator: thanhduycao
Published: 2023-09-21 15:05:06
License: 暂无描述

Hugging Face2023-09-21 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/thanhduycao/soict_train_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* dataset_info: features: - name: id dtype: string - name: sentence dtype: string - name: intent dtype: string - name: sentence_annotation dtype: string - name: entities list: - name: type dtype: string - name: filler dtype: string - name: file dtype: string - name: audio struct: - name: array sequence: float64 - name: path dtype: string - name: sampling_rate dtype: int64 - name: origin_transcription dtype: string - name: sentence_norm dtype: string - name: sentence_norm_v2 dtype: string splits: - name: train num_bytes: 3484626224 num_examples: 6729 - name: test num_bytes: 390303091 num_examples: 748 download_size: 918877822 dataset_size: 3874929315 --- # Dataset Card for "soict_train_dataset" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

配置项： - 配置名称：default 数据文件： - 拆分集：train，路径为 data/train-* - 拆分集：test，路径为 data/test-* 数据集信息：特征字段： - 名称：id，数据类型：字符串 - 名称：sentence，数据类型：字符串 - 名称：intent，数据类型：字符串 - 名称：sentence_annotation，数据类型：字符串 - 名称：entities，为列表类型，包含子字段： - 名称：type，数据类型：字符串 - 名称：filler，数据类型：字符串 - 名称：file，数据类型：字符串 - 名称：audio，为结构体类型，包含： - 名称：array，数据类型：64位浮点数（float64）序列 - 名称：path，数据类型：字符串 - 名称：sampling_rate（采样率），数据类型：64位整数（int64） - 名称：origin_transcription，数据类型：字符串 - 名称：sentence_norm，数据类型：字符串 - 名称：sentence_norm_v2，数据类型：字符串拆分集详情： - 名称：train，字节数：3484626224，样本数：6729 - 名称：test，字节数：390303091，样本数：748 下载大小：918877822 数据集总大小：3874929315 --- # "soict_train_dataset"数据集卡片 [需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

thanhduycao

原始信息汇总

数据集概述

数据集配置

配置名称: default
- 数据文件:
  - 训练集: data/train-*
  - 测试集: data/test-*

数据集信息

特征:
- id: 字符串类型
- sentence: 字符串类型
- intent: 字符串类型
- sentence_annotation: 字符串类型
- entities: 列表类型
  - type: 字符串类型
  - filler: 字符串类型
- file: 字符串类型
- audio: 结构类型
  - array: 浮点数序列
  - path: 字符串类型
  - sampling_rate: 整数类型
- origin_transcription: 字符串类型
- sentence_norm: 字符串类型
- sentence_norm_v2: 字符串类型

数据集分割

训练集:
- 字节数: 3484626224
- 样本数: 6729
测试集:
- 字节数: 390303091
- 样本数: 748

数据集大小

下载大小: 918877822
数据集大小: 3874929315

5,000+

优质数据集

54 个

任务类型

进入经典数据集