jan-hq/instruction-speech-transcription-text-v1
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/jan-hq/instruction-speech-transcription-text-v1
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一个名为text的字符串类型特征,主要用于训练目的。数据集总大小为9001297444字节,包含444678个训练样本。数据集的下载大小为2006891018字节。数据文件位于data/train-*路径下。
This dataset includes a feature named text of string type, primarily used for training purposes. The total size of the dataset is 9001297444 bytes, containing 444678 training examples. The download size of the dataset is 2006891018 bytes. The data files are located under the path data/train-*.
提供机构:
jan-hq
原始信息汇总
数据集概述
基本信息
- 名称: instruction-speech-transcription-text-v1
- 描述: jan-hq/instruction-speech-transcription-text-v1 数据集托管在 HF Mirror 并由 HF Datasets 社区贡献。
- 别名: jan-hq/instruction-speech-transcription-text-v1
- 创建者: Jan (https://hf-mirror.com/jan-hq)
- 关键词: 100K - 1M, parquet, Text, Datasets, Dask, Croissant, 🇺🇸 Region: US
- URL: https://hf-mirror.com/datasets/jan-hq/instruction-speech-transcription-text-v1
数据格式
- 分布:
-
类型: cr:FileObject
-
ID: repo
-
名称: repo
-
描述: HF Mirror git 仓库。
-
内容 URL: https://hf-mirror.com/datasets/jan-hq/instruction-speech-transcription-text-v1/tree/refs%2Fconvert%2Fparquet
-
编码格式: git+https
-
SHA256: https://github.com/mlcommons/croissant/issues/80
-
类型: cr:FileSet
-
ID: parquet-files-for-config-default
-
名称: parquet-files-for-config-default
-
描述: 由 HF Mirror 转换的基础 Parquet 文件(参见:https://hf-mirror.com/docs/datasets-server/parquet)。
-
包含于: repo
-
编码格式: application/x-parquet
-
包含: default//.parquet
-
记录集
- 类型: cr:RecordSet
- ID: default
- 名称: default
- 描述: jan-hq/instruction-speech-transcription-text-v1 - default 子集
- 字段:
- 类型: cr:Field
- ID: default/text
- 名称: default/text
- 描述: HF Mirror parquet 文件中的 text 列。
- 数据类型: sc:Text
- 来源:
- 文件集: parquet-files-for-config-default
- 提取:
- 列: text
符合标准
- 标准: http://mlcommons.org/croissant/1.0



