CognitiveLab/FS_test
收藏Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CognitiveLab/FS_test
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个字段,如作者、持续时间、描述、转录文本、音频路径、链接、标题和观看次数。转录文本部分详细描述了元数据和结果,包括通道、创建时间、持续时间、模型信息、请求ID、SHA256、摘要信息、事务键、警告、结果、摘要和话语等。数据集分为训练集,包含522个样本,总大小为62271386字节,下载大小为22172106字节。
该数据集包含多个字段,如作者、持续时间、描述、转录文本、音频路径、链接、标题和观看次数。转录文本部分详细描述了元数据和结果,包括通道、创建时间、持续时间、模型信息、请求ID、SHA256、摘要信息、事务键、警告、结果、摘要和话语等。数据集分为训练集,包含522个样本,总大小为62271386字节,下载大小为22172106字节。
提供机构:
CognitiveLab
原始信息汇总
数据集信息
特征
- author: 类型为字符串。
- duration: 类型为整数。
- description: 类型为字符串。
- transcript: 包含以下结构:
- metadata: 包含以下结构:
- channels: 类型为整数。
- created: 类型为字符串。
- duration: 类型为浮点数。
- model_info: 包含以下结构:
- 30089e05-99d1-4376-b32e-c263170674af: 包含以下结构:
- arch: 类型为字符串。
- name: 类型为字符串。
- version: 类型为字符串。
- 30089e05-99d1-4376-b32e-c263170674af: 包含以下结构:
- models: 类型为字符串序列。
- request_id: 类型为字符串。
- sha256: 类型为字符串。
- summary_info: 包含以下结构:
- input_tokens: 类型为整数。
- model_uuid: 类型为字符串。
- output_tokens: 类型为整数。
- transaction_key: 类型为字符串。
- warnings: 类型为空。
- results: 包含以下结构:
- channels: 包含以下列表:
- alternatives: 包含以下列表:
- confidence: 类型为浮点数。
- entities: 类型为空。
- paragraphs: 包含以下结构:
- paragraphs: 包含以下列表:
- end: 类型为浮点数。
- num_words: 类型为浮点数。
- sentences: 包含以下列表:
- end: 类型为浮点数。
- start: 类型为浮点数。
- text: 类型为字符串。
- speaker: 类型为整数。
- start: 类型为浮点数。
- transcript: 类型为字符串。
- paragraphs: 包含以下列表:
- summaries: 类型为空。
- topics: 包含以下列表:
- end_word: 类型为浮点数。
- start_word: 类型为浮点数。
- text: 类型为字符串。
- topics: 包含以下列表:
- confidence: 类型为浮点数。
- topic: 类型为字符串。
- transcript: 类型为字符串。
- translations: 类型为空。
- words: 包含以下列表:
- confidence: 类型为浮点数。
- end: 类型为浮点数。
- punctuated_word: 类型为字符串。
- speaker: 类型为整数。
- speaker_confidence: 类型为浮点数。
- start: 类型为浮点数。
- word: 类型为字符串。
- detected_language: 类型为字符串。
- language_confidence: 类型为浮点数。
- search: 类型为空。
- alternatives: 包含以下列表:
- summary: 包含以下结构:
- result: 类型为字符串。
- short: 类型为字符串。
- utterances: 类型为空。
- channels: 包含以下列表:
- metadata: 包含以下结构:
- audio_path: 类型为字符串。
- link: 类型为字符串。
- title: 类型为字符串。
- views: 类型为整数。
数据分割
- train: 包含522个样本,占用62271386字节。
数据集大小
- 下载大小: 22172106字节。
- 数据集大小: 62271386字节。
配置
- default: 包含以下数据文件:
- train: 路径为
data/train-*。
- train: 路径为



