BEE-spoke-data/SYSK-Transcripts
收藏Hugging Face2023-11-08 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BEE-spoke-data/SYSK-Transcripts
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为SYSK_Transcripts,包含Stuff You Should Know播客的完整转录和摘要。数据集的特征包括id、标题、链接、描述、摘要、发布日期、格式化日期、编码长度、编码类型、音频URL和转录文本。数据集共有1965行数据。
提供机构:
BEE-spoke-data
原始信息汇总
数据集概述
数据集信息
配置名称:default
- 特征列表:
- id: string
- title: string
- link: string
- desc: string
- summary: string
- pubDate: string
- pubFormatted: string
- enc_len: string
- enc_type: string
- audio_url: string
- transcript: string
- 分割信息:
- train:
- num_bytes: 72117648
- num_examples: 1965
- train:
- 下载大小:40830798
- 数据集大小:72117648
配置名称:seg-no-ads
- 特征列表:
- id: string
- title: string
- link: string
- desc: string
- summary: string
- text: string
- 分割信息:
- train:
- num_bytes: 69771386
- num_examples: 1911
- train:
- 下载大小:40026675
- 数据集大小:69771386
配置名称:segmented
- 特征列表:
- id: string
- title: string
- link: string
- desc: string
- summary: string
- text: string
- 分割信息:
- train:
- num_bytes: 69521425.32519084
- num_examples: 1911
- train:
- 下载大小:40832338
- 数据集大小:69521425.32519084
数据文件配置
- 配置名称:default
- 分割:train
- 路径:data/train-*
- 配置名称:seg-no-ads
- 分割:train
- 路径:seg-no-ads/train-*
- 配置名称:segmented
- 分割:train
- 路径:segmented/train-*



