LanguaMan/vieneu-tts-140h-dataset

Name: LanguaMan/vieneu-tts-140h-dataset
Creator: LanguaMan
Published: 2026-04-21 04:33:00
License: 暂无描述

Hugging Face2026-04-21 更新2026-04-26 收录

下载链接：

https://hf-mirror.com/datasets/LanguaMan/vieneu-tts-140h-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - vi task_categories: - text-to-speech - automatic-speech-recognition size_categories: - 10K<n<100K tags: - vietnamese - tts - speech - phonemized - multi-speaker license: apache-2.0 --- # pnnbao-ump/VieNeu-TTS-140h ## Mô tả Dataset Dataset tiếng Việt chất lượng cao cho Text-to-Speech (TTS) với **74,858** mẫu audio và transcript được phonemize. Mục tiêu của mình là tạo bộ dataset chuẩn mực để finetune các model TTS hiện nay với chất lượng cao nhất. Mình thu thập audio chất lượng cao từ youtube, làm sạch nền, loại bỏ noise, dùng whisper-large-v3 để tạo transcription, sau đó cho Agent sửa lỗi chính tả và feedback lại cho con người. Bộ dữ liệu cũng được phonemize hóa theo đúng tiêu chuẩn hiện nay. Các bạn quan tâm có thể liên hệ trực tiếp với mình qua Facebook: https://www.facebook.com/bao.phamnguyenngoc.5 ### Thông tin tổng quan - **Ngôn ngữ:** Tiếng Việt 🇻🇳 - **Nhiệm vụ:** Text-to-Speech, ASR - **Số lượng mẫu:** 74,858 - **Format audio:** WAV, 24kHz - **Độ dài trung bình:** ~6.76 giây/mẫu - **Tổng thời lượng:** ~140.7 giờ - **Multi-speaker:** 193 ### Phân bố Gender - **👨 Nam (Male):** 50,200 mẫu (67.1%) - **👩 Nữ (Female):** 24,658 mẫu (32.9%) ### Cấu trúc Dataset Dataset bao gồm các trường sau: ```json { "_id": "jellyfish1010_0041_5", "audio": { "path": "...", "array": [...], "sampling_rate": 24000 }, "text": "Người người băn khoăn về AI, nhà nhà cùng nhau sử dụng AI.", "phonemized_text": "ŋˈyə2j ŋˈyə2j bˈan xwˈan vˈe2 ˌaːˈi, ɲˈaː2 ɲˈaː2 kˈu2ŋ ɲˈaw sˈy4 zˈu6ŋ ˌaːˈi.", "duration": 8.39, "speaker": "jellyfish1010_0041", "gender": "male", "language": "vi" } ``` #### Các trường dữ liệu: - **_id**: ID duy nhất của mẫu (tên đã chuẩn hóa) - **audio**: File audio WAV (24kHz) - tên file gốc - **text**: Văn bản tiếng Việt gốc - **phonemized_text**: Phiên âm IPA của văn bản - **duration**: Độ dài audio (giây) - **speaker**: ID của speaker - **gender**: Giới tính speaker (male/female) - **language**: Mã ngôn ngữ (vi) ## Cách sử dụng ### Tải dataset ```python from datasets import load_dataset # Load toàn bộ dataset dataset = load_dataset("pnnbao-ump/VieNeu-TTS") # Xem một mẫu sample = dataset['train'][0] print(f"ID: {sample['_id']}") print(f"Text: {sample['text']}") print(f"Phonemized: {sample['phonemized_text']}") print(f"Duration: {sample['duration']}s") print(f"Speaker: {sample['speaker']}") print(f"Gender: {sample['gender']}") print(f"Audio shape: {sample['audio']['array'].shape}") print(f"Sample rate: {sample['audio']['sampling_rate']} Hz") ``` ## Thống kê Dataset - **Tổng số mẫu:** 74,858 - **Số speaker:** 193 - **Độ dài trung bình:** ~6.76 giây/mẫu - **Tổng thời lượng:** ~140.7 giờ - **Chất lượng audio:** WAV format, 24kHz - **Phonemization:** IPA (International Phonetic Alphabet) with stress markers ## Giấy phép Dataset này được phát hành dưới giấy phép Apache 2.0. Bạn có thể: ✅ Sử dụng cho mục đích thương mại ✅ Sửa đổi và phân phối ✅ Cấp phép lại ✅ Sử dụng trong dự án private Với điều kiện: 📝 Giữ nguyên thông báo bản quyền và giấy phép 📝 Ghi rõ những thay đổi đã thực hiện 📝 Bao gồm bản sao giấy phép Apache 2.0 ⚠️ **Lưu ý:** Dataset được cung cấp "nguyên trạng" không có bất kỳ bảo hành nào. Xem chi tiết tại: https://www.apache.org/licenses/LICENSE-2.0 Vui lòng trích dẫn nguồn khi sử dụng. ## Citation ```bibtex @dataset{vieneu_tts_140h, author = {Pham Nguyen Ngoc Bao}, title = {VieNeu-TTS: Vietnamese Multi-Speaker Text-to-Speech Dataset}, year = {2025}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS}}, note = {140.7 hours, 193 speakers, Apache 2.0 License} } ``` ## Liên hệ Nếu có bất kỳ câu hỏi hoặc vấn đề nào, vui lòng tạo issue trên repository. --- **Tác giả:** Pham Nguyen Ngoc Bao **Năm:** 2025

提供机构：

LanguaMan

5,000+

优质数据集

54 个

任务类型

进入经典数据集