CognitiveLab/FS_transcribe_summary
收藏Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CognitiveLab/FS_transcribe_summary
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含音频相关的详细信息,如作者、时长、音频路径、标题和观看次数等。此外,还包含音频内容的转录文本和摘要信息,以及与音频处理相关的元数据和结果数据,如模型信息、语言检测和语音识别结果等。
该数据集包含音频相关的详细信息,如作者、时长、音频路径、标题和观看次数等。此外,还包含音频内容的转录文本和摘要信息,以及与音频处理相关的元数据和结果数据,如模型信息、语言检测和语音识别结果等。
提供机构:
CognitiveLab
原始信息汇总
数据集信息
特征
- author: 字符串类型
- duration: 64位整数类型
- description: 字符串类型
- transcript_json: 结构体类型,包含以下字段:
- metadata: 结构体类型,包含以下字段:
- channels: 64位整数类型
- created: 字符串类型
- duration: 64位浮点数类型
- model_info: 结构体类型,包含以下字段:
- 30089e05-99d1-4376-b32e-c263170674af: 结构体类型,包含以下字段:
- arch: 字符串类型
- name: 字符串类型
- version: 字符串类型
- 30089e05-99d1-4376-b32e-c263170674af: 结构体类型,包含以下字段:
- models: 字符串序列类型
- request_id: 字符串类型
- sha256: 字符串类型
- summary_info: 结构体类型,包含以下字段:
- input_tokens: 64位整数类型
- model_uuid: 字符串类型
- output_tokens: 64位整数类型
- transaction_key: 字符串类型
- warnings: null类型
- results: 结构体类型,包含以下字段:
- channels: 列表类型,包含以下字段:
- alternatives: 列表类型,包含以下字段:
- confidence: 64位浮点数类型
- entities: null类型
- paragraphs: 结构体类型,包含以下字段:
- paragraphs: 列表类型,包含以下字段:
- end: 64位浮点数类型
- num_words: 64位浮点数类型
- sentences: 列表类型,包含以下字段:
- end: 64位浮点数类型
- start: 64位浮点数类型
- text: 字符串类型
- speaker: 64位整数类型
- start: 64位浮点数类型
- transcript: 字符串类型
- paragraphs: 列表类型,包含以下字段:
- summaries: null类型
- topics: 列表类型,包含以下字段:
- end_word: 64位浮点数类型
- start_word: 64位浮点数类型
- text: 字符串类型
- topics: 列表类型,包含以下字段:
- confidence: 64位浮点数类型
- topic: 字符串类型
- transcript: 字符串类型
- translations: null类型
- words: 列表类型,包含以下字段:
- confidence: 64位浮点数类型
- end: 64位浮点数类型
- punctuated_word: 字符串类型
- speaker: 64位整数类型
- speaker_confidence: 64位浮点数类型
- start: 64位浮点数类型
- word: 字符串类型
- alternatives: 列表类型,包含以下字段:
- detected_language: 字符串类型
- language_confidence: 64位浮点数类型
- search: null类型
- channels: 列表类型,包含以下字段:
- summary: 结构体类型,包含以下字段:
- result: 字符串类型
- short: 字符串类型
- utterances: null类型
- metadata: 结构体类型,包含以下字段:
- audio_path: 字符串类型
- link: 字符串类型
- title: 字符串类型
- views: 64位整数类型
- transcript: 字符串类型
- summary: 字符串类型
数据分割
- train:
- 字节数: 66706960
- 样本数: 522
数据集大小
- 下载大小: 24568645 字节
- 数据集大小: 66706960 字节
配置
- config_name: default
- data_files:
- split: train
- path: data/train-*
- data_files:



