gigant/tib_2303_filtered
收藏Hugging Face2023-03-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gigant/tib_2303_filtered
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: doi
dtype: string
- name: title
dtype: string
- name: url
dtype: string
- name: video_url
dtype: string
- name: license
dtype: string
- name: subject
dtype: string
- name: genre
dtype: string
- name: release_year
dtype: string
- name: author
dtype: string
- name: contributors
dtype: string
- name: abstract
dtype: string
- name: transcript
dtype: string
- name: transcript_segments
sequence:
- name: id
dtype: int32
- name: seek
dtype: int32
- name: start
dtype: float32
- name: end
dtype: float32
- name: text
dtype: string
- name: tokens
sequence: int32
- name: temperature
dtype: float32
- name: avg_logprob
dtype: float32
- name: compression_ratio
dtype: float32
- name: no_speech_prob
dtype: float32
- name: keyframes
sequence:
- name: slide
dtype: string
- name: frames
sequence: int32
- name: timestamp
sequence: float32
- name: language
dtype: string
splits:
- name: train
num_bytes: 1032202393.542393
num_examples: 9103
download_size: 500663533
dataset_size: 1032202393.542393
---
# Dataset Card for "tib_2303_filtered"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
特征:
- 名称:数字对象标识符(Digital Object Identifier,DOI),数据类型:字符串
- 名称:标题(title),数据类型:字符串
- 名称:统一资源定位符(url),数据类型:字符串
- 名称:视频统一资源定位符(video_url),数据类型:字符串
- 名称:许可证(license),数据类型:字符串
- 名称:主题(subject),数据类型:字符串
- 名称:体裁(genre),数据类型:字符串
- 名称:发布年份(release_year),数据类型:字符串
- 名称:作者(author),数据类型:字符串
- 名称:贡献者(contributors),数据类型:字符串
- 名称:摘要(abstract),数据类型:字符串
- 名称:转录文本(transcript),数据类型:字符串
- 名称:转录文本分段(transcript_segments),序列类型:
- 名称:编号(id),数据类型:32位有符号整数
- 名称:定位偏移量(seek),数据类型:32位有符号整数
- 名称:起始时间(start),数据类型:32位单精度浮点数
- 名称:结束时间(end),数据类型:32位单精度浮点数
- 名称:文本内容(text),数据类型:字符串
- 名称:Token序列(tokens),数据类型:32位有符号整数序列
- 名称:温度参数(temperature),数据类型:32位单精度浮点数
- 名称:平均对数概率(avg_logprob),数据类型:32位单精度浮点数
- 名称:压缩率(compression_ratio),数据类型:32位单精度浮点数
- 名称:无语音概率(no_speech_prob),数据类型:32位单精度浮点数
- 名称:关键帧集合(keyframes),序列类型:
- 名称:幻灯片帧(slide),数据类型:字符串
- 名称:帧序列(frames),数据类型:32位有符号整数序列
- 名称:时间戳序列(timestamp),数据类型:32位单精度浮点数序列
- 名称:语言(language),数据类型:字符串
数据划分:
- 名称:训练集(train),字节量:1032202393.542393,样本数:9103
下载大小:500663533,数据集总大小:1032202393.542393
---
# "tib_2303_filtered"数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
gigant
原始信息汇总
数据集概述
数据集名称
- 名称: tib_2303_filtered
数据集特征
- doi: 字符串类型
- title: 字符串类型
- url: 字符串类型
- video_url: 字符串类型
- license: 字符串类型
- subject: 字符串类型
- genre: 字符串类型
- release_year: 字符串类型
- author: 字符串类型
- contributors: 字符串类型
- abstract: 字符串类型
- transcript: 字符串类型
- transcript_segments: 序列类型,包含以下子特征:
- id: 整数类型 (int32)
- seek: 整数类型 (int32)
- start: 浮点类型 (float32)
- end: 浮点类型 (float32)
- text: 字符串类型
- tokens: 序列类型,整数类型 (int32)
- temperature: 浮点类型 (float32)
- avg_logprob: 浮点类型 (float32)
- compression_ratio: 浮点类型 (float32)
- no_speech_prob: 浮点类型 (float32)
- keyframes: 序列类型,包含以下子特征:
- slide: 字符串类型
- frames: 序列类型,整数类型 (int32)
- timestamp: 序列类型,浮点类型 (float32)
- language: 字符串类型
数据集分割
- train:
- num_bytes: 1032202393.542393 字节
- num_examples: 9103 个样本
数据集大小
- download_size: 500663533 字节
- dataset_size: 1032202393.542393 字节



