five

CognitiveLab/FS_test

收藏
Hugging Face2024-02-04 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/CognitiveLab/FS_test
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个字段,如作者、持续时间、描述、转录文本、音频路径、链接、标题和观看次数。转录文本部分详细描述了元数据和结果,包括通道、创建时间、持续时间、模型信息、请求ID、SHA256、摘要信息、事务键、警告、结果、摘要和话语等。数据集分为训练集,包含522个样本,总大小为62271386字节,下载大小为22172106字节。

该数据集包含多个字段,如作者、持续时间、描述、转录文本、音频路径、链接、标题和观看次数。转录文本部分详细描述了元数据和结果,包括通道、创建时间、持续时间、模型信息、请求ID、SHA256、摘要信息、事务键、警告、结果、摘要和话语等。数据集分为训练集,包含522个样本,总大小为62271386字节,下载大小为22172106字节。
提供机构:
CognitiveLab
原始信息汇总

数据集信息

特征

  • author: 类型为字符串。
  • duration: 类型为整数。
  • description: 类型为字符串。
  • transcript: 包含以下结构:
    • metadata: 包含以下结构:
      • channels: 类型为整数。
      • created: 类型为字符串。
      • duration: 类型为浮点数。
      • model_info: 包含以下结构:
        • 30089e05-99d1-4376-b32e-c263170674af: 包含以下结构:
          • arch: 类型为字符串。
          • name: 类型为字符串。
          • version: 类型为字符串。
      • models: 类型为字符串序列。
      • request_id: 类型为字符串。
      • sha256: 类型为字符串。
      • summary_info: 包含以下结构:
        • input_tokens: 类型为整数。
        • model_uuid: 类型为字符串。
        • output_tokens: 类型为整数。
      • transaction_key: 类型为字符串。
      • warnings: 类型为空。
    • results: 包含以下结构:
      • channels: 包含以下列表:
        • alternatives: 包含以下列表:
          • confidence: 类型为浮点数。
          • entities: 类型为空。
          • paragraphs: 包含以下结构:
            • paragraphs: 包含以下列表:
              • end: 类型为浮点数。
              • num_words: 类型为浮点数。
              • sentences: 包含以下列表:
                • end: 类型为浮点数。
                • start: 类型为浮点数。
                • text: 类型为字符串。
              • speaker: 类型为整数。
              • start: 类型为浮点数。
            • transcript: 类型为字符串。
          • summaries: 类型为空。
          • topics: 包含以下列表:
            • end_word: 类型为浮点数。
            • start_word: 类型为浮点数。
            • text: 类型为字符串。
            • topics: 包含以下列表:
              • confidence: 类型为浮点数。
              • topic: 类型为字符串。
          • transcript: 类型为字符串。
          • translations: 类型为空。
          • words: 包含以下列表:
            • confidence: 类型为浮点数。
            • end: 类型为浮点数。
            • punctuated_word: 类型为字符串。
            • speaker: 类型为整数。
            • speaker_confidence: 类型为浮点数。
            • start: 类型为浮点数。
            • word: 类型为字符串。
        • detected_language: 类型为字符串。
        • language_confidence: 类型为浮点数。
        • search: 类型为空。
      • summary: 包含以下结构:
        • result: 类型为字符串。
        • short: 类型为字符串。
      • utterances: 类型为空。
  • audio_path: 类型为字符串。
  • link: 类型为字符串。
  • title: 类型为字符串。
  • views: 类型为整数。

数据分割

  • train: 包含522个样本,占用62271386字节。

数据集大小

  • 下载大小: 22172106字节。
  • 数据集大小: 62271386字节。

配置

  • default: 包含以下数据文件:
    • train: 路径为data/train-*
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作