gigant/tib_dependency
收藏Hugging Face2024-02-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/gigant/tib_dependency
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: doi
dtype: string
- name: title
dtype: string
- name: url
dtype: string
- name: video_url
dtype: string
- name: license
dtype: string
- name: subject
dtype: string
- name: genre
dtype: string
- name: release_year
dtype: string
- name: author
dtype: string
- name: contributors
dtype: string
- name: abstract
dtype: string
- name: transcript
dtype: string
- name: transcript_segments
sequence:
- name: id
dtype: int32
- name: seek
dtype: int32
- name: start
dtype: float32
- name: end
dtype: float32
- name: text
dtype: string
- name: tokens
sequence: int32
- name: temperature
dtype: float32
- name: avg_logprob
dtype: float32
- name: compression_ratio
dtype: float32
- name: no_speech_prob
dtype: float32
- name: keyframes
sequence:
- name: slide
dtype: string
- name: frames
sequence: int32
- name: timestamp
sequence: float32
- name: language
dtype: string
- name: dependency_graph
struct:
- name: edge_labels
sequence: string
- name: graph_mask
sequence: bool
- name: receivers
sequence: int64
- name: senders
sequence: int64
splits:
- name: train
num_bytes: 2187977096
num_examples: 7282
- name: valid
num_bytes: 269910150
num_examples: 910
- name: test
num_bytes: 272258730
num_examples: 911
download_size: 817000513
dataset_size: 2730145976
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
- split: valid
path: data/valid-*
- split: test
path: data/test-*
---
提供机构:
gigant
原始信息汇总
数据集概述
特征信息
- doi: 字符串类型
- title: 字符串类型
- url: 字符串类型
- video_url: 字符串类型
- license: 字符串类型
- subject: 字符串类型
- genre: 字符串类型
- release_year: 字符串类型
- author: 字符串类型
- contributors: 字符串类型
- abstract: 字符串类型
- transcript: 字符串类型
- transcript_segments: 序列类型,包含以下字段:
- id: 32位整数类型
- seek: 32位整数类型
- start: 32位浮点数类型
- end: 32位浮点数类型
- text: 字符串类型
- tokens: 整数序列类型
- temperature: 32位浮点数类型
- avg_logprob: 32位浮点数类型
- compression_ratio: 32位浮点数类型
- no_speech_prob: 32位浮点数类型
- keyframes: 序列类型,包含以下字段:
- slide: 字符串类型
- frames: 整数序列类型
- timestamp: 浮点数序列类型
- language: 字符串类型
- dependency_graph: 结构类型,包含以下字段:
- edge_labels: 字符串序列类型
- graph_mask: 布尔序列类型
- receivers: 64位整数序列类型
- senders: 64位整数序列类型
数据分割
- train: 包含7282个样本,占用2187977096字节
- valid: 包含910个样本,占用269910150字节
- test: 包含911个样本,占用272258730字节
数据大小
- 下载大小: 817000513字节
- 数据集大小: 2730145976字节
配置信息
- default: 包含以下数据文件路径:
- train: data/train-*
- valid: data/valid-*
- test: data/test-*



