VieNeu-TTS
收藏魔搭社区2025-12-05 更新2025-11-08 收录
下载链接:
https://modelscope.cn/datasets/AI-ModelScope/VieNeu-TTS
下载链接
链接失效反馈官方服务:
资源简介:
# pnnbao-ump/VieNeu-TTS-140h
## Mô tả Dataset
Dataset tiếng Việt chất lượng cao cho Text-to-Speech (TTS) với **74,858** mẫu audio và transcript được phonemize.
Mục tiêu của mình là tạo bộ dataset chuẩn mực để finetune các model TTS hiện nay với chất lượng cao nhất. Mình thu thập audio chất lượng cao từ youtube, làm sạch nền, loại bỏ noise, dùng whisper-large-v3 để tạo transcription, sau đó cho Agent sửa lỗi chính tả và feedback lại cho con người. Bộ dữ liệu cũng được phonemize hóa theo đúng tiêu chuẩn hiện nay.
Các bạn quan tâm có thể liên hệ trực tiếp với mình qua Facebook: https://www.facebook.com/bao.phamnguyenngoc.5
### Thông tin tổng quan
- **Ngôn ngữ:** Tiếng Việt 🇻🇳
- **Nhiệm vụ:** Text-to-Speech, ASR
- **Số lượng mẫu:** 74,858
- **Format audio:** WAV, 24kHz
- **Độ dài trung bình:** ~6.76 giây/mẫu
- **Tổng thời lượng:** ~140.7 giờ
- **Multi-speaker:** 193
### Phân bố Gender
- **👨 Nam (Male):** 50,200 mẫu (67.1%)
- **👩 Nữ (Female):** 24,658 mẫu (32.9%)
### Cấu trúc Dataset
Dataset bao gồm các trường sau:
```json
{
"_id": "jellyfish1010_0041_5",
"audio": {
"path": "...",
"array": [...],
"sampling_rate": 24000
},
"text": "Người người băn khoăn về AI, nhà nhà cùng nhau sử dụng AI.",
"phonemized_text": "ŋˈyə2j ŋˈyə2j bˈan xwˈan vˈe2 ˌaːˈi, ɲˈaː2 ɲˈaː2 kˈu2ŋ ɲˈaw sˈy4 zˈu6ŋ ˌaːˈi.",
"duration": 8.39,
"speaker": "jellyfish1010_0041",
"gender": "male",
"language": "vi"
}
```
#### Các trường dữ liệu:
- **_id**: ID duy nhất của mẫu (tên đã chuẩn hóa)
- **audio**: File audio WAV (24kHz) - tên file gốc
- **text**: Văn bản tiếng Việt gốc
- **phonemized_text**: Phiên âm IPA của văn bản
- **duration**: Độ dài audio (giây)
- **speaker**: ID của speaker
- **gender**: Giới tính speaker (male/female)
- **language**: Mã ngôn ngữ (vi)
## Cách sử dụng
### Tải dataset
```python
from datasets import load_dataset
# Load toàn bộ dataset
dataset = load_dataset("pnnbao-ump/VieNeu-TTS")
# Xem một mẫu
sample = dataset['train'][0]
print(f"ID: {sample['_id']}")
print(f"Text: {sample['text']}")
print(f"Phonemized: {sample['phonemized_text']}")
print(f"Duration: {sample['duration']}s")
print(f"Speaker: {sample['speaker']}")
print(f"Gender: {sample['gender']}")
print(f"Audio shape: {sample['audio']['array'].shape}")
print(f"Sample rate: {sample['audio']['sampling_rate']} Hz")
```
## Thống kê Dataset
- **Tổng số mẫu:** 74,858
- **Số speaker:** 193
- **Độ dài trung bình:** ~6.76 giây/mẫu
- **Tổng thời lượng:** ~140.7 giờ
- **Chất lượng audio:** WAV format, 24kHz
- **Phonemization:** IPA (International Phonetic Alphabet) with stress markers
## Giấy phép
Dataset này được phát hành dưới giấy phép Apache 2.0.
Bạn có thể:
✅ Sử dụng cho mục đích thương mại
✅ Sửa đổi và phân phối
✅ Cấp phép lại
✅ Sử dụng trong dự án private
Với điều kiện:
📝 Giữ nguyên thông báo bản quyền và giấy phép
📝 Ghi rõ những thay đổi đã thực hiện
📝 Bao gồm bản sao giấy phép Apache 2.0
⚠️ **Lưu ý:** Dataset được cung cấp "nguyên trạng" không có bất kỳ bảo hành nào.
Xem chi tiết tại: https://www.apache.org/licenses/LICENSE-2.0
Vui lòng trích dẫn nguồn khi sử dụng.
## Citation
```bibtex
@dataset{vieneu_tts_140h,
author = {Pham Nguyen Ngoc Bao},
title = {VieNeu-TTS: Vietnamese Multi-Speaker Text-to-Speech Dataset},
year = {2025},
publisher = {Hugging Face},
howpublished = {\url{https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS}},
note = {140.7 hours, 193 speakers, Apache 2.0 License}
}
```
## Liên hệ
Nếu có bất kỳ câu hỏi hoặc vấn đề nào, vui lòng tạo issue trên repository.
---
**Tác giả:** Pham Nguyen Ngoc Bao
**Năm:** 2025
# pnnbao-ump/VieNeu-TTS-140h
## 数据集描述
本数据集为高质量越南语文本转语音(Text-to-Speech, TTS)数据集,包含**74,858**条经音素化处理的音频与转录文本样本。本数据集旨在构建标准化高质量数据集,用于对现有文本转语音模型进行微调。我们从YouTube平台采集高质量音频,通过背景降噪、杂音移除等预处理步骤,使用whisper-large-v3生成转录文本,随后交由AI智能体(AI Agent)进行拼写纠错并将结果反馈给人工审核。本数据集同时按照当前行业标准完成了音素化处理。
如需咨询,可直接通过Facebook联系作者:https://www.facebook.com/bao.phamnguyenngoc.5
## 数据集概览
- **语言:** 越南语 🇻🇳
- **任务:** 文本转语音(TTS)、自动语音识别(ASR)
- **样本总数:** 74,858
- **音频格式:** WAV,24kHz采样率
- **单样本平均时长:** 约6.76秒
- **总时长:** 约140.7小时
- **多说话人数量:** 193位
## 性别分布
- 👨 男性(Male):50,200条样本,占比67.1%
- 👩 女性(Female):24,658条样本,占比32.9%
## 数据集结构
本数据集包含以下字段:
json
{
"_id": "jellyfish1010_0041_5",
"audio": {
"path": "...",
"array": [...],
"sampling_rate": 24000
},
"text": "Người người băn khoăn về AI, nhà nhà cùng nhau sử dụng AI.",
"phonemized_text": "ŋˈyə2j ŋˈyə2j bˈan xwˈan vˈe2 ˌaːˈi, ɲˈaː2 ɲˈaː2 kˈu2ŋ ɲˈaw sˈy4 zˈu6ŋ ˌaːˈi.",
"duration": 8.39,
"speaker": "jellyfish1010_0041",
"gender": "male",
"language": "vi"
}
### 数据字段说明
- **_id:** 样本唯一ID(已完成标准化命名)
- **audio:** WAV格式音频文件(24kHz采样率),包含原始文件名
- **text:** 原始越南语文本
- **phonemized_text:** 文本对应的国际音标(International Phonetic Alphabet, IPA)音素化标注
- **duration:** 音频时长(单位:秒)
- **speaker:** 说话人唯一标识ID
- **gender:** 说话人性别(male/female)
- **language:** 语言编码(vi代表越南语)
## 使用方法
### 下载数据集
python
from datasets import load_dataset
# 加载完整数据集
dataset = load_dataset("pnnbao-ump/VieNeu-TTS")
# 查看单条样本
sample = dataset['train'][0]
print(f"ID: {sample['_id']}")
print(f"文本: {sample['text']}")
print(f"音素化标注: {sample['phonemized_text']}")
print(f"时长: {sample['duration']}s")
print(f"说话人ID: {sample['speaker']}")
print(f"性别: {sample['gender']}")
print(f"音频数组形状: {sample['audio']['array'].shape}")
print(f"采样率: {sample['audio']['sampling_rate']} Hz")
## 数据集统计信息
- **总样本数:** 74,858
- **说话人总数:** 193位
- **单样本平均时长:** 约6.76秒
- **总时长:** 约140.7小时
- **音频质量:** WAV格式,24kHz采样率
- **音素化处理:** 带重音标注的国际音标(IPA)
## 许可证
本数据集采用Apache 2.0许可证发布。
您可进行以下操作:
✅ 用于商业用途
✅ 修改并分发
✅ 再次授权
✅ 用于私有项目
需遵守以下条款:
📝 保留原版权声明与许可证信息
📝 明确标注所做的修改内容
📝 附带Apache 2.0许可证副本
⚠️ **注意:** 本数据集按“现状”提供,不附带任何明示或默示的担保。
详情请见:https://www.apache.org/licenses/LICENSE-2.0
使用时请注明引用来源。
## 引用格式
bibtex
@dataset{vieneu_tts_140h,
author = {Pham Nguyen Ngoc Bao},
title = {VieNeu-TTS: Vietnamese Multi-Speaker Text-to-Speech Dataset},
year = {2025},
publisher = {Hugging Face},
howpublished = {url{https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS}},
note = {140.7 hours, 193 speakers, Apache 2.0 License}
}
## 联系方式
如有任何疑问或问题,请在仓库中提交issue。
---
**作者:** Pham Nguyen Ngoc Bao
**发布年份:** 2025
提供机构:
maas
创建时间:
2025-11-01



