Satvik2000/smart-turn-data-v3.1-train
收藏Hugging Face2026-03-12 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/Satvik2000/smart-turn-data-v3.1-train
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: audio
dtype: audio
- name: id
dtype: string
- name: language
dtype: string
- name: endpoint_bool
dtype: bool
- name: midfiller
dtype: bool
- name: endfiller
dtype: bool
- name: synthetic
dtype: bool
- name: spoken_text
dtype: 'null'
- name: dataset
dtype: string
splits:
- name: train
num_bytes: 38491641356.0
num_examples: 270429
download_size: 36750468369
dataset_size: 38491641356.0
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
---
Training dataset for Smart Turn v3.1.
Thank you to the following contributors whose audio samples are included in this dataset:
* The Pipecat team
* Liva AI: https://www.theliva.ai/
* Midcentury: https://www.midcentury.xyz/
* MundoAI: https://mundoai.world/
---
数据集信息:
特征:
- 名称:音频(audio),数据类型:音频格式
- 名称:样本ID(id),数据类型:字符串
- 名称:语言(language),数据类型:字符串
- 名称:端点检测布尔值(endpoint_bool),数据类型:布尔值
- 名称:中间填充词标记(midfiller),数据类型:布尔值
- 名称:结尾填充词标记(endfiller),数据类型:布尔值
- 名称:合成语音标记(synthetic),数据类型:布尔值
- 名称:语音转写文本(spoken_text),数据类型:空值
- 名称:来源数据集(dataset),数据类型:字符串
数据集拆分:
- 名称:训练集(train),占用字节数:38491641356.0,样本总量:270429
下载总大小:36750468369
数据集总大小:38491641356.0
配置项:
- 配置名称:默认配置(default),数据文件:
- 数据集拆分:训练集(train),文件路径:data/train-*
---
本数据集为Smart Turn v3.1版本的训练数据集。
谨此致谢为本数据集提供音频样本的以下贡献方:
* Pipecat团队
* Liva AI:https://www.theliva.ai/
* Midcentury:https://www.midcentury.xyz/
* MundoAI:https://mundoai.world/
提供机构:
Satvik2000



