CognitiveLab/FS_test

Name: CognitiveLab/FS_test
Creator: CognitiveLab
Published: 2024-02-04 14:31:34
License: 暂无描述

Hugging Face2024-02-04 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/CognitiveLab/FS_test

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含多个字段，如作者、持续时间、描述、转录文本、音频路径、链接、标题和观看次数。转录文本部分详细描述了元数据和结果，包括通道、创建时间、持续时间、模型信息、请求ID、SHA256、摘要信息、事务键、警告、结果、摘要和话语等。数据集分为训练集，包含522个样本，总大小为62271386字节，下载大小为22172106字节。

提供机构：

CognitiveLab

原始信息汇总

数据集信息

特征

author: 类型为字符串。
duration: 类型为整数。
description: 类型为字符串。
transcript: 包含以下结构：
- metadata: 包含以下结构：
  - channels: 类型为整数。
  - created: 类型为字符串。
  - duration: 类型为浮点数。
  - model_info: 包含以下结构：
    - 30089e05-99d1-4376-b32e-c263170674af: 包含以下结构：
      - arch: 类型为字符串。
      - name: 类型为字符串。
      - version: 类型为字符串。
  - models: 类型为字符串序列。
  - request_id: 类型为字符串。
  - sha256: 类型为字符串。
  - summary_info: 包含以下结构：
    - input_tokens: 类型为整数。
    - model_uuid: 类型为字符串。
    - output_tokens: 类型为整数。
  - transaction_key: 类型为字符串。
  - warnings: 类型为空。
- results: 包含以下结构：
  - channels: 包含以下列表：
    - alternatives: 包含以下列表：
      - confidence: 类型为浮点数。
      - entities: 类型为空。
      - paragraphs: 包含以下结构：
        
        paragraphs: 包含以下列表：
        
        end: 类型为浮点数。
        
        num_words: 类型为浮点数。
        
        sentences: 包含以下列表：
        
        end: 类型为浮点数。
        
        start: 类型为浮点数。
        
        text: 类型为字符串。
        
        speaker: 类型为整数。
        
        start: 类型为浮点数。
        
        transcript: 类型为字符串。
      - summaries: 类型为空。
      - topics: 包含以下列表：
        
        end_word: 类型为浮点数。
        
        start_word: 类型为浮点数。
        
        text: 类型为字符串。
        
        topics: 包含以下列表：
        
        confidence: 类型为浮点数。
        
        topic: 类型为字符串。
      - transcript: 类型为字符串。
      - translations: 类型为空。
      - words: 包含以下列表：
        
        confidence: 类型为浮点数。
        
        end: 类型为浮点数。
        
        punctuated_word: 类型为字符串。
        
        speaker: 类型为整数。
        
        speaker_confidence: 类型为浮点数。
        
        start: 类型为浮点数。
        
        word: 类型为字符串。
    - detected_language: 类型为字符串。
    - language_confidence: 类型为浮点数。
    - search: 类型为空。
  - summary: 包含以下结构：
    - result: 类型为字符串。
    - short: 类型为字符串。
  - utterances: 类型为空。
audio_path: 类型为字符串。
link: 类型为字符串。
title: 类型为字符串。
views: 类型为整数。

数据分割

train: 包含522个样本，占用62271386字节。

数据集大小

下载大小: 22172106字节。
数据集大小: 62271386字节。

配置

default: 包含以下数据文件：
- train: 路径为data/train-*。

5,000+

优质数据集

54 个

任务类型

进入经典数据集