YuKuanFu/Podcast_Dialogue
收藏Hugging Face2024-05-23 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/YuKuanFu/Podcast_Dialogue
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype:
audio:
mono: false
- name: channel
dtype: string
- name: title
dtype: string
- name: segment
dtype: int64
splits:
- name: chunk_0
num_bytes: 51289223302.16
num_examples: 20480
- name: chunk_1
num_bytes: 56278745682.24
num_examples: 20480
- name: chunk_2
num_bytes: 56271430624.32
num_examples: 20480
- name: chunk_3
num_bytes: 46778681832.72
num_examples: 20480
- name: chunk_4
num_bytes: 48836416999.2
num_examples: 20480
- name: chunk_5
num_bytes: 53297748622.08
num_examples: 20480
- name: chunk_6
num_bytes: 47040120186.48
num_examples: 20480
- name: chunk_7
num_bytes: 49303952091.12
num_examples: 20480
- name: chunk_8
num_bytes: 54072530900.4
num_examples: 20480
- name: chunk_9
num_bytes: 46936434758.48
num_examples: 20480
- name: chunk_10
num_bytes: 57209673787.68
num_examples: 20480
- name: chunk_11
num_bytes: 48424457603.28
num_examples: 20480
- name: chunk_12
num_bytes: 53565993389.2
num_examples: 20480
- name: chunk_13
num_bytes: 53315437731.68
num_examples: 20480
- name: chunk_14
num_bytes: 53669226540.32
num_examples: 20480
- name: chunk_15
num_bytes: 51442224735.52
num_examples: 20480
- name: chunk_16
num_bytes: 45923541795.2
num_examples: 20480
- name: chunk_17
num_bytes: 58805580884.96
num_examples: 20480
- name: chunk_18
num_bytes: 54707797942.96
num_examples: 20480
- name: chunk_19
num_bytes: 50075128000.4
num_examples: 20480
- name: chunk_20
num_bytes: 51493596521.28
num_examples: 20480
- name: chunk_21
num_bytes: 57939927313.6
num_examples: 20480
- name: chunk_22
num_bytes: 53295696403.44
num_examples: 20480
- name: chunk_23
num_bytes: 6697822712.164
num_examples: 2893
download_size: 1193841259751
dataset_size: 1206671390360.884
configs:
- config_name: default
data_files:
- split: chunk_0
path: data/chunk_0*
- split: chunk_1
path: data/chunk_1*
- split: chunk_2
path: data/chunk_2*
- split: chunk_3
path: data/chunk_3*
- split: chunk_4
path: data/chunk_4*
- split: chunk_5
path: data/chunk_5*
- split: chunk_6
path: data/chunk_6*
- split: chunk_7
path: data/chunk_7*
- split: chunk_8
path: data/chunk_8*
- split: chunk_9
path: data/chunk_9*
- split: chunk_10
path: data/chunk_10*
- split: chunk_11
path: data/chunk_11*
- split: chunk_12
path: data/chunk_12*
- split: chunk_13
path: data/chunk_13*
- split: chunk_14
path: data/chunk_14*
- split: chunk_15
path: data/chunk_15*
- split: chunk_16
path: data/chunk_16*
- split: chunk_17
path: data/chunk_17*
- split: chunk_18
path: data/chunk_18*
- split: chunk_19
path: data/chunk_19*
- split: chunk_20
path: data/chunk_20*
- split: chunk_21
path: data/chunk_21*
- split: chunk_22
path: data/chunk_22*
- split: chunk_23
path: data/chunk_23*
---
数据集信息:
特征字段:
- 名称:音频(Audio)
数据类型:
音频格式:非单声道
- 名称:声道(channel)
数据类型:字符串
- 名称:标题(title)
数据类型:字符串
- 名称:片段编号(segment)
数据类型:64位整数
数据划分:
- 名称:chunk_0
字节大小:51289223302.16
样本数量:20480
- 名称:chunk_1
字节大小:56278745682.24
样本数量:20480
- 名称:chunk_2
字节大小:56271430624.32
样本数量:20480
- 名称:chunk_3
字节大小:46778681832.72
样本数量:20480
- 名称:chunk_4
字节大小:48836416999.2
样本数量:20480
- 名称:chunk_5
字节大小:53297748622.08
样本数量:20480
- 名称:chunk_6
字节大小:47040120186.48
样本数量:20480
- 名称:chunk_7
字节大小:49303952091.12
样本数量:20480
- 名称:chunk_8
字节大小:54072530900.4
样本数量:20480
- 名称:chunk_9
字节大小:46936434758.48
样本数量:20480
- 名称:chunk_10
字节大小:57209673787.68
样本数量:20480
- 名称:chunk_11
字节大小:48424457603.28
样本数量:20480
- 名称:chunk_12
字节大小:53565993389.2
样本数量:20480
- 名称:chunk_13
字节大小:53315437731.68
样本数量:20480
- 名称:chunk_14
字节大小:53669226540.32
样本数量:20480
- 名称:chunk_15
字节大小:51442224735.52
样本数量:20480
- 名称:chunk_16
字节大小:45923541795.2
样本数量:20480
- 名称:chunk_17
字节大小:58805580884.96
样本数量:20480
- 名称:chunk_18
字节大小:54707797942.96
样本数量:20480
- 名称:chunk_19
字节大小:50075128000.4
样本数量:20480
- 名称:chunk_20
字节大小:51493596521.28
样本数量:20480
- 名称:chunk_21
字节大小:57939927313.6
样本数量:20480
- 名称:chunk_22
字节大小:53295696403.44
样本数量:20480
- 名称:chunk_23
字节大小:6697822712.164
样本数量:2893
下载大小:1193841259751
数据集总大小:1206671390360.884
配置项:
- 配置名称:default
数据文件:
- 数据划分:chunk_0
路径:data/chunk_0*
- 数据划分:chunk_1
路径:data/chunk_1*
- 数据划分:chunk_2
路径:data/chunk_2*
- 数据划分:chunk_3
路径:data/chunk_3*
- 数据划分:chunk_4
路径:data/chunk_4*
- 数据划分:chunk_5
路径:data/chunk_5*
- 数据划分:chunk_6
路径:data/chunk_6*
- 数据划分:chunk_7
路径:data/chunk_7*
- 数据划分:chunk_8
路径:data/chunk_8*
- 数据划分:chunk_9
路径:data/chunk_9*
- 数据划分:chunk_10
路径:data/chunk_10*
- 数据划分:chunk_11
路径:data/chunk_11*
- 数据划分:chunk_12
路径:data/chunk_12*
- 数据划分:chunk_13
路径:data/chunk_13*
- 数据划分:chunk_14
路径:data/chunk_14*
- 数据划分:chunk_15
路径:data/chunk_15*
- 数据划分:chunk_16
路径:data/chunk_16*
- 数据划分:chunk_17
路径:data/chunk_17*
- 数据划分:chunk_18
路径:data/chunk_18*
- 数据划分:chunk_19
路径:data/chunk_19*
- 数据划分:chunk_20
路径:data/chunk_20*
- 数据划分:chunk_21
路径:data/chunk_21*
- 数据划分:chunk_22
路径:data/chunk_22*
- 数据划分:chunk_23
路径:data/chunk_23*
提供机构:
YuKuanFu
原始信息汇总
数据集概述
数据集特征
- audio: 音频特征,非单声道。
- channel: 字符串类型。
- title: 字符串类型。
- segment: 整数类型。
数据集分割
- 数据集被分割为24个部分,每个部分命名为
chunk_X(X从0到23)。 - 每个部分的示例数量均为20480,除了
chunk_23,其示例数量为2893。 - 每个部分的大小(以字节为单位)不同,具体数值在README文件中列出。
数据集大小
- 下载大小: 1193841259751字节。
- 数据集总大小: 1206671390360.884字节。
配置文件
- 配置名称为
default。 - 数据文件路径与数据集分割对应,每个分割对应一个数据文件路径,路径格式为
data/chunk_X*。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为Podcast_Dialogue,包含音频和文本数据,格式为parquet,总大小1.19 TB。访问需同意共享联系信息,且无详细说明文档。
以上内容由遇见数据集搜集并总结生成



