VieNeu-TTS-140h-nanocodec

Name: VieNeu-TTS-140h-nanocodec
Creator: maas
Published: 2025-12-05 16:56:20
License: 暂无描述

魔搭社区2025-12-05 更新2025-12-06 收录

下载链接：

https://modelscope.cn/datasets/AI-ModelScope/VieNeu-TTS-140h-nanocodec

下载链接

链接失效反馈

官方服务：

资源简介：

# VieNeu-TTS-140h-nanocodec Dataset tiếng Việt đã được encode bằng NVIDIA NeMo NanoCodec cho training Kani TTS. ## Dataset Details - **Source:** VieNeu-TTS-140h (pnnbao-ump/VieNeu-TTS-140h) - **Total samples:** 74,858 - **Speakers:** 193 - **Language:** Vietnamese (vi) - **Codec:** NVIDIA NeMo NanoCodec (22kHz, 0.6kbps, 12.5fps) - **Format:** JSONL.gz với NanoCodec tokens (4 layers) ## Dataset Structure Mỗi mẫu bao gồm: - `text`: Text transcription tiếng Việt - `nano_layer_1`: Codec tokens layer 1 - `nano_layer_2`: Codec tokens layer 2 - `nano_layer_3`: Codec tokens layer 3 - `nano_layer_4`: Codec tokens layer 4 - `encoded_len`: Độ dài sequence tokens - `speaker`: Speaker ID - `lang`: "vi" - `dataset_source`: "vieneu-tts-140h" - `phonemized_text`: IPA phonemization (nếu có) - `gender`: Giới tính speaker (nếu có) ## Usage ```python from datasets import load_dataset dataset = load_dataset("pnnbao-ump/VieNeu-TTS-140h-nanocodec") # Xem một mẫu sample = dataset['train'][0] print(sample['text']) print(f"Speaker: {sample['speaker']}") print(f"Tokens: {sample['encoded_len']}") ``` ## License CC BY-NC 4.0 - Non-commercial use only ## Citation ```bibtex @dataset{vieneu_tts_140h_nanocodec, title = {VieNeu-TTS-140h NanoCodec Dataset}, author = {Pham Nguyen Ngoc Bao}, year = {2025}, url = {https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS-140h-nanocodec} } ```

# VieNeu-TTS-140h-nanocodec 本数据集为越南语语音语料库，经NVIDIA NeMo NanoCodec编码后，可用于Kani TTS模型的训练。 ## 数据集详情 - **来源**：VieNeu-TTS-140h（pnnbao-ump/VieNeu-TTS-140h） - **总样本量**：74,858 - **发音人数量**：193 - **语言**：越南语（vi） - **编解码器**：NVIDIA NeMo NanoCodec（22kHz、0.6kbps、12.5fps） - **数据格式**：包含4层NanoCodec Token的JSONL.gz压缩文件 ## 数据集结构每个样本包含以下字段： - `text`：越南语文本转写内容 - `nano_layer_1`：编解码器第1层Token - `nano_layer_2`：编解码器第2层Token - `nano_layer_3`：编解码器第3层Token - `nano_layer_4`：编解码器第4层Token - `encoded_len`：Token序列长度 - `speaker`：发音人ID - `lang`：语言标识"vi" - `dataset_source`：数据集来源"vieneu-tts-140h" - `phonemized_text`：国际音标（IPA）音素转写结果（如存在） - `gender`：发音人性别（如存在） ## 使用方法 python from datasets import load_dataset dataset = load_dataset("pnnbao-ump/VieNeu-TTS-140h-nanocodec") # 查看一个样本 sample = dataset['train'][0] print(sample['text']) print(f"Speaker: {sample['speaker']}") print(f"Tokens: {sample['encoded_len']}") ## 许可证 CC BY-NC 4.0，仅允许非商业使用。 ## 引用格式 bibtex @dataset{vieneu_tts_140h_nanocodec, title = {VieNeu-TTS-140h NanoCodec Dataset}, author = {Pham Nguyen Ngoc Bao}, year = {2025}, url = {https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS-140h-nanocodec} }

提供机构：

maas

创建时间：

2025-11-11

5,000+

优质数据集

54 个

任务类型

进入经典数据集