talkbank/callfriend
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/talkbank/callfriend
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: eng-n
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: timestamps_start
sequence: float64
- name: timestamps_end
sequence: float64
- name: speakers
sequence: string
splits:
- name: data
num_bytes: 877294944.0
num_examples: 31
download_size: 851243610
dataset_size: 877294944.0
- config_name: eng-s
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: timestamps_start
sequence: float64
- name: timestamps_end
sequence: float64
- name: speakers
sequence: string
splits:
- name: data
num_bytes: 325649108.0
num_examples: 9
download_size: 317578560
dataset_size: 325649108.0
- config_name: fra-q
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: timestamps_start
sequence: float64
- name: timestamps_end
sequence: float64
- name: speakers
sequence: string
splits:
- name: data
num_bytes: 57608533.0
num_examples: 1
download_size: 57069712
dataset_size: 57608533.0
- config_name: jpn
features:
- name: audio
dtype:
audio:
sampling_rate: 16000
- name: timestamps_start
sequence: float64
- name: timestamps_end
sequence: float64
- name: speakers
sequence: string
splits:
- name: data
num_bytes: 1458423326.0
num_examples: 31
download_size: 1421856586
dataset_size: 1458423326.0
configs:
- config_name: eng-n
data_files:
- split: data
path: eng-n/data-*
- config_name: eng-s
data_files:
- split: data
path: eng-s/data-*
- config_name: fra-q
data_files:
- split: data
path: fra-q/data-*
- config_name: jpn
data_files:
- split: data
path: jpn/data-*
---
数据集信息:
1. 配置名称:eng-n
特征字段:
- 字段名:audio,数据类型为音频,采样率为16000 Hz
- 字段名:timestamps_start,类型为64位浮点数序列,用于记录片段起始时间戳
- 字段名:timestamps_end,类型为64位浮点数序列,用于记录片段结束时间戳
- 字段名:speakers,类型为字符串序列,用于记录说话人信息
数据集划分:
- 划分名称:data,占用字节数:877294944.0,样本数量:31
下载大小:851243610,数据集总占用字节数:877294944.0
2. 配置名称:eng-s
特征字段:
- 字段名:audio,数据类型为音频,采样率为16000 Hz
- 字段名:timestamps_start,类型为64位浮点数序列,用于记录片段起始时间戳
- 字段名:timestamps_end,类型为64位浮点数序列,用于记录片段结束时间戳
- 字段名:speakers,类型为字符串序列,用于记录说话人信息
数据集划分:
- 划分名称:data,占用字节数:325649108.0,样本数量:9
下载大小:317578560,数据集总占用字节数:325649108.0
3. 配置名称:fra-q
特征字段:
- 字段名:audio,数据类型为音频,采样率为16000 Hz
- 字段名:timestamps_start,类型为64位浮点数序列,用于记录片段起始时间戳
- 字段名:timestamps_end,类型为64位浮点数序列,用于记录片段结束时间戳
- 字段名:speakers,类型为字符串序列,用于记录说话人信息
数据集划分:
- 划分名称:data,占用字节数:57608533.0,样本数量:1
下载大小:57069712,数据集总占用字节数:57608533.0
4. 配置名称:jpn
特征字段:
- 字段名:audio,数据类型为音频,采样率为16000 Hz
- 字段名:timestamps_start,类型为64位浮点数序列,用于记录片段起始时间戳
- 字段名:timestamps_end,类型为64位浮点数序列,用于记录片段结束时间戳
- 字段名:speakers,类型为字符串序列,用于记录说话人信息
数据集划分:
- 划分名称:data,占用字节数:1458423326.0,样本数量:31
下载大小:1421856586,数据集总占用字节数:1458423326.0
数据集配置:
- 配置名称:eng-n,数据文件:对应划分data的路径为`eng-n/data-*`
- 配置名称:eng-s,数据文件:对应划分data的路径为`eng-s/data-*`
- 配置名称:fra-q,数据文件:对应划分data的路径为`fra-q/data-*`
- 配置名称:jpn,数据文件:对应划分data的路径为`jpn/data-*`
提供机构:
talkbank
原始信息汇总
数据集概述
配置名称:eng-n
- 特征:
- audio: 采样率为16000
- timestamps_start: 序列类型为float64
- timestamps_end: 序列类型为float64
- speakers: 序列类型为string
- 分割:
- data: 数据大小为877294944.0字节,包含31个示例
- 下载大小: 851243610字节
- 数据集大小: 877294944.0字节
配置名称:eng-s
- 特征:
- audio: 采样率为16000
- timestamps_start: 序列类型为float64
- timestamps_end: 序列类型为float64
- speakers: 序列类型为string
- 分割:
- data: 数据大小为325649108.0字节,包含9个示例
- 下载大小: 317578560字节
- 数据集大小: 325649108.0字节
配置名称:fra-q
- 特征:
- audio: 采样率为16000
- timestamps_start: 序列类型为float64
- timestamps_end: 序列类型为float64
- speakers: 序列类型为string
- 分割:
- data: 数据大小为57608533.0字节,包含1个示例
- 下载大小: 57069712字节
- 数据集大小: 57608533.0字节
配置名称:jpn
- 特征:
- audio: 采样率为16000
- timestamps_start: 序列类型为float64
- timestamps_end: 序列类型为float64
- speakers: 序列类型为string
- 分割:
- data: 数据大小为1458423326.0字节,包含31个示例
- 下载大小: 1421856586字节
- 数据集大小: 1458423326.0字节
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是TalkBank项目下的callfriend数据集,包含多种语言的数据子集,总共有72行数据,格式为parquet,大小为2.65 GB,涵盖音频和文本两种模态。数据集上个月有39次下载,并且有一个基于该数据集的模型被训练或微调。
以上内容由遇见数据集搜集并总结生成



