five

CognitiveLab/FS_transcribe_summary

收藏
Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CognitiveLab/FS_transcribe_summary
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含音频相关的详细信息,如作者、时长、音频路径、标题和观看次数等。此外,还包含音频内容的转录文本和摘要信息,以及与音频处理相关的元数据和结果数据,如模型信息、语言检测和语音识别结果等。

该数据集包含音频相关的详细信息,如作者、时长、音频路径、标题和观看次数等。此外,还包含音频内容的转录文本和摘要信息,以及与音频处理相关的元数据和结果数据,如模型信息、语言检测和语音识别结果等。
提供机构:
CognitiveLab
原始信息汇总

数据集信息

特征

  • author: 字符串类型
  • duration: 64位整数类型
  • description: 字符串类型
  • transcript_json: 结构体类型,包含以下字段:
    • metadata: 结构体类型,包含以下字段:
      • channels: 64位整数类型
      • created: 字符串类型
      • duration: 64位浮点数类型
      • model_info: 结构体类型,包含以下字段:
        • 30089e05-99d1-4376-b32e-c263170674af: 结构体类型,包含以下字段:
          • arch: 字符串类型
          • name: 字符串类型
          • version: 字符串类型
      • models: 字符串序列类型
      • request_id: 字符串类型
      • sha256: 字符串类型
      • summary_info: 结构体类型,包含以下字段:
        • input_tokens: 64位整数类型
        • model_uuid: 字符串类型
        • output_tokens: 64位整数类型
      • transaction_key: 字符串类型
      • warnings: null类型
    • results: 结构体类型,包含以下字段:
      • channels: 列表类型,包含以下字段:
        • alternatives: 列表类型,包含以下字段:
          • confidence: 64位浮点数类型
          • entities: null类型
          • paragraphs: 结构体类型,包含以下字段:
            • paragraphs: 列表类型,包含以下字段:
              • end: 64位浮点数类型
              • num_words: 64位浮点数类型
              • sentences: 列表类型,包含以下字段:
                • end: 64位浮点数类型
                • start: 64位浮点数类型
                • text: 字符串类型
              • speaker: 64位整数类型
              • start: 64位浮点数类型
            • transcript: 字符串类型
          • summaries: null类型
          • topics: 列表类型,包含以下字段:
            • end_word: 64位浮点数类型
            • start_word: 64位浮点数类型
            • text: 字符串类型
            • topics: 列表类型,包含以下字段:
              • confidence: 64位浮点数类型
              • topic: 字符串类型
          • transcript: 字符串类型
          • translations: null类型
          • words: 列表类型,包含以下字段:
            • confidence: 64位浮点数类型
            • end: 64位浮点数类型
            • punctuated_word: 字符串类型
            • speaker: 64位整数类型
            • speaker_confidence: 64位浮点数类型
            • start: 64位浮点数类型
            • word: 字符串类型
      • detected_language: 字符串类型
      • language_confidence: 64位浮点数类型
      • search: null类型
    • summary: 结构体类型,包含以下字段:
      • result: 字符串类型
      • short: 字符串类型
    • utterances: null类型
  • audio_path: 字符串类型
  • link: 字符串类型
  • title: 字符串类型
  • views: 64位整数类型
  • transcript: 字符串类型
  • summary: 字符串类型

数据分割

  • train:
    • 字节数: 66706960
    • 样本数: 522

数据集大小

  • 下载大小: 24568645 字节
  • 数据集大小: 66706960 字节

配置

  • config_name: default
    • data_files:
      • split: train
      • path: data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作