gigant/tib_03
收藏Hugging Face2023-03-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gigant/tib_03
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: doi
dtype: string
- name: title
dtype: string
- name: url
dtype: string
- name: video_url
dtype: string
- name: license
dtype: string
- name: subject
dtype: string
- name: genre
dtype: string
- name: release_year
dtype: string
- name: author
dtype: string
- name: contributors
dtype: string
- name: abstract
dtype: string
- name: transcript
dtype: string
- name: transcript_segments
sequence:
- name: id
dtype: int32
- name: seek
dtype: int32
- name: start
dtype: float32
- name: end
dtype: float32
- name: text
dtype: string
- name: tokens
sequence: int32
- name: temperature
dtype: float32
- name: avg_logprob
dtype: float32
- name: compression_ratio
dtype: float32
- name: no_speech_prob
dtype: float32
- name: keyframes
sequence:
- name: slide
dtype: string
- name: frames
sequence: int32
- name: timestamp
sequence: float32
- name: language
dtype: string
splits:
- name: train
num_bytes: 825021028.0243876
num_examples: 7282
- name: test
num_bytes: 103212600.45732176
num_examples: 911
- name: valid
num_bytes: 103099304.51829067
num_examples: 910
download_size: 502108840
dataset_size: 1031332933.0
---
# Dataset Card for "tib_03"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
gigant
原始信息汇总
数据集概述
数据集特征
- doi: 数据类型为字符串。
- title: 数据类型为字符串。
- url: 数据类型为字符串。
- video_url: 数据类型为字符串。
- license: 数据类型为字符串。
- subject: 数据类型为字符串。
- genre: 数据类型为字符串。
- release_year: 数据类型为字符串。
- author: 数据类型为字符串。
- contributors: 数据类型为字符串。
- abstract: 数据类型为字符串。
- transcript: 数据类型为字符串。
- transcript_segments: 序列类型,包含以下子特征:
- id: 数据类型为int32。
- seek: 数据类型为int32。
- start: 数据类型为float32。
- end: 数据类型为float32。
- text: 数据类型为字符串。
- tokens: 序列类型,数据类型为int32。
- temperature: 数据类型为float32。
- avg_logprob: 数据类型为float32。
- compression_ratio: 数据类型为float32。
- no_speech_prob: 数据类型为float32。
- keyframes: 序列类型,包含以下子特征:
- slide: 数据类型为字符串。
- frames: 序列类型,数据类型为int32。
- timestamp: 序列类型,数据类型为float32。
- language: 数据类型为字符串。
数据集分割
- train: 大小为825021028.0243876字节,包含7282个样本。
- test: 大小为103212600.45732176字节,包含911个样本。
- valid: 大小为103099304.51829067字节,包含910个样本。
数据集大小
- 下载大小: 502108840字节。
- 数据集总大小: 1031332933.0字节。



