gigant/tib_002
收藏Hugging Face2023-03-18 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gigant/tib_002
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: doi
dtype: string
- name: title
dtype: string
- name: url
dtype: string
- name: video_url
dtype: string
- name: license
dtype: string
- name: subject
dtype: string
- name: genre
dtype: string
- name: release_year
dtype: string
- name: author
dtype: string
- name: contributors
dtype: string
- name: abstract
dtype: string
- name: transcript
dtype: string
- name: transcript_segments
sequence:
- name: id
dtype: int32
- name: seek
dtype: int32
- name: start
dtype: float32
- name: end
dtype: float32
- name: text
dtype: string
- name: tokens
sequence: int32
- name: temperature
dtype: float32
- name: avg_logprob
dtype: float32
- name: compression_ratio
dtype: float32
- name: no_speech_prob
dtype: float32
- name: keyframes
sequence:
- name: slide
dtype: string
- name: frames
sequence: int32
- name: timestamp
sequence: float32
- name: language
dtype: string
splits:
- name: train
num_bytes: 1011381643.8712058
num_examples: 8831
download_size: 486130872
dataset_size: 1011381643.8712058
---
# Dataset Card for "tib_002"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
gigant
原始信息汇总
数据集概述
数据集特征
- doi: 数据类型为字符串。
- title: 数据类型为字符串。
- url: 数据类型为字符串。
- video_url: 数据类型为字符串。
- license: 数据类型为字符串。
- subject: 数据类型为字符串。
- genre: 数据类型为字符串。
- release_year: 数据类型为字符串。
- author: 数据类型为字符串。
- contributors: 数据类型为字符串。
- abstract: 数据类型为字符串。
- transcript: 数据类型为字符串。
- transcript_segments: 序列类型,包含以下子特征:
- id: 数据类型为int32。
- seek: 数据类型为int32。
- start: 数据类型为float32。
- end: 数据类型为float32。
- text: 数据类型为字符串。
- tokens: 序列类型,数据类型为int32。
- temperature: 数据类型为float32。
- avg_logprob: 数据类型为float32。
- compression_ratio: 数据类型为float32。
- no_speech_prob: 数据类型为float32。
- keyframes: 序列类型,包含以下子特征:
- slide: 数据类型为字符串。
- frames: 序列类型,数据类型为int32。
- timestamp: 序列类型,数据类型为float32。
- language: 数据类型为字符串。
数据集分割
- train:
- 数据量: 1011381643.8712058字节。
- 样本数量: 8831。
数据集大小
- 下载大小: 486130872字节。
- 数据集总大小: 1011381643.8712058字节。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含约8,831条记录,以parquet格式存储,主要收录2018年数学领域的学术讲座信息。每条记录包含讲座的标题、作者、摘要、转录文本、多媒体链接(如视频和幻灯片)以及元数据(如DOI和许可证),语言均为英语,适用于文本分析和学术研究。
以上内容由遇见数据集搜集并总结生成



