VieNeu-TTS-140h

Name: VieNeu-TTS-140h
Creator: maas
Published: 2026-01-06 16:51:19
License: 暂无描述

魔搭社区2026-01-06 更新2025-11-08 收录

下载链接：

https://modelscope.cn/datasets/AI-ModelScope/VieNeu-TTS-140h

下载链接

链接失效反馈

官方服务：

资源简介：

# pnnbao-ump/VieNeu-TTS-140h ## Mô tả Dataset Dataset tiếng Việt chất lượng cao cho Text-to-Speech (TTS) với **74,858** mẫu audio và transcript được phonemize. Mục tiêu của mình là tạo bộ dataset chuẩn mực để finetune các model TTS hiện nay với chất lượng cao nhất. Mình thu thập audio chất lượng cao từ youtube, làm sạch nền, loại bỏ noise, dùng whisper-large-v3 để tạo transcription, sau đó cho Agent sửa lỗi chính tả và feedback lại cho con người. Bộ dữ liệu cũng được phonemize hóa theo đúng tiêu chuẩn hiện nay. Các bạn quan tâm có thể liên hệ trực tiếp với mình qua Facebook: https://www.facebook.com/bao.phamnguyenngoc.5 ### Thông tin tổng quan - **Ngôn ngữ:** Tiếng Việt 🇻🇳 - **Nhiệm vụ:** Text-to-Speech, ASR - **Số lượng mẫu:** 74,858 - **Format audio:** WAV, 24kHz - **Độ dài trung bình:** ~6.76 giây/mẫu - **Tổng thời lượng:** ~140.7 giờ - **Multi-speaker:** 193 ### Phân bố Gender - **👨 Nam (Male):** 50,200 mẫu (67.1%) - **👩 Nữ (Female):** 24,658 mẫu (32.9%) ### Cấu trúc Dataset Dataset bao gồm các trường sau: ```json { "_id": "jellyfish1010_0041_5", "audio": { "path": "...", "array": [...], "sampling_rate": 24000 }, "text": "Người người băn khoăn về AI, nhà nhà cùng nhau sử dụng AI.", "phonemized_text": "ŋˈyə2j ŋˈyə2j bˈan xwˈan vˈe2 ˌaːˈi, ɲˈaː2 ɲˈaː2 kˈu2ŋ ɲˈaw sˈy4 zˈu6ŋ ˌaːˈi.", "duration": 8.39, "speaker": "jellyfish1010_0041", "gender": "male", "language": "vi" } ``` #### Các trường dữ liệu: - **_id**: ID duy nhất của mẫu (tên đã chuẩn hóa) - **audio**: File audio WAV (24kHz) - tên file gốc - **text**: Văn bản tiếng Việt gốc - **phonemized_text**: Phiên âm IPA của văn bản - **duration**: Độ dài audio (giây) - **speaker**: ID của speaker - **gender**: Giới tính speaker (male/female) - **language**: Mã ngôn ngữ (vi) ## Cách sử dụng ### Tải dataset ```python from datasets import load_dataset # Load toàn bộ dataset dataset = load_dataset("pnnbao-ump/VieNeu-TTS") # Xem một mẫu sample = dataset['train'][0] print(f"ID: {sample['_id']}") print(f"Text: {sample['text']}") print(f"Phonemized: {sample['phonemized_text']}") print(f"Duration: {sample['duration']}s") print(f"Speaker: {sample['speaker']}") print(f"Gender: {sample['gender']}") print(f"Audio shape: {sample['audio']['array'].shape}") print(f"Sample rate: {sample['audio']['sampling_rate']} Hz") ``` ## Thống kê Dataset - **Tổng số mẫu:** 74,858 - **Số speaker:** 193 - **Độ dài trung bình:** ~6.76 giây/mẫu - **Tổng thời lượng:** ~140.7 giờ - **Chất lượng audio:** WAV format, 24kHz - **Phonemization:** IPA (International Phonetic Alphabet) with stress markers ## Giấy phép Dataset này được phát hành dưới giấy phép Apache 2.0. Bạn có thể: ✅ Sử dụng cho mục đích thương mại ✅ Sửa đổi và phân phối ✅ Cấp phép lại ✅ Sử dụng trong dự án private Với điều kiện: 📝 Giữ nguyên thông báo bản quyền và giấy phép 📝 Ghi rõ những thay đổi đã thực hiện 📝 Bao gồm bản sao giấy phép Apache 2.0 ⚠️ **Lưu ý:** Dataset được cung cấp "nguyên trạng" không có bất kỳ bảo hành nào. Xem chi tiết tại: https://www.apache.org/licenses/LICENSE-2.0 Vui lòng trích dẫn nguồn khi sử dụng. ## Citation ```bibtex @dataset{vieneu_tts_140h, author = {Pham Nguyen Ngoc Bao}, title = {VieNeu-TTS: Vietnamese Multi-Speaker Text-to-Speech Dataset}, year = {2025}, publisher = {Hugging Face}, howpublished = {\url{https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS}}, note = {140.7 hours, 193 speakers, Apache 2.0 License} } ``` ## Liên hệ Nếu có bất kỳ câu hỏi hoặc vấn đề nào, vui lòng tạo issue trên repository. --- **Tác giả:** Pham Nguyen Ngoc Bao **Năm:** 2025

# pnnbao-ump/VieNeu-TTS-140h ## 数据集描述该数据集为高质量越南语文本转语音（Text-to-Speech，简称TTS）数据集，包含74,858条经过音素标注的音频与转录文本。本数据集旨在构建标准化基准数据集，用于当前主流TTS模型的高质量微调。数据集的音频素材均从YouTube平台采集高质量源文件，经背景降噪、噪声移除处理后，使用whisper-large-v3生成转录文本，再由AI智能体（AI Agent）进行拼写纠错并反馈给人工审核。数据集同时按照当前行业标准完成音素标注处理。感兴趣的用户可通过Facebook直接联系作者：https://www.facebook.com/bao.phamnguyenngoc.5 ### 数据集概览 - **语言：** 越南语 🇻🇳 - **任务：** 文本转语音（TTS）、自动语音识别（Automatic Speech Recognition，简称ASR） - **样本量：** 74,858 - **音频格式：** WAV，采样率24kHz - **单样本平均时长：** 约6.76秒 - **总时长：** 约140.7小时 - **多说话人数量：** 193位 ### 性别分布 - **👨 男性：** 50,200条样本（占比67.1%） - **👩 女性：** 24,658条样本（占比32.9%） ### 数据集结构数据集包含以下字段： json { "_id": "jellyfish1010_0041_5", "audio": { "path": "...", "array": [...], "sampling_rate": 24000 }, "text": "Người người băn khoăn về AI, nhà nhà cùng nhau sử dụng AI.", "phonemized_text": "ŋˈyə2j ŋˈyə2j bˈan xwˈan vˈe2 ˌaːˈi, ɲˈaː2 ɲˈaː2 kˈu2ŋ ɲˈaw sˈy4 zˈu6ŋ ˌaːˈi.", "duration": 8.39, "speaker": "jellyfish1010_0041", "gender": "male", "language": "vi" } #### 数据字段说明 - **_id**：样本唯一标识符（已标准化命名） - **audio**：WAV格式音频文件（24kHz采样率），含原始文件路径与音频数组 - **text**：原始越南语文本 - **phonemized_text**：文本的国际音标（International Phonetic Alphabet，IPA）音素标注结果 - **duration**：音频时长（单位：秒） - **speaker**：说话人唯一标识符 - **gender**：说话人性别（male/female） - **language**：语言编码（vi，代表越南语） ## 使用方法 ### 加载数据集 python from datasets import load_dataset # 加载完整数据集 dataset = load_dataset("pnnbao-ump/VieNeu-TTS") # 查看单一样本 sample = dataset['train'][0] print(f"ID: {sample['_id']}") print(f"文本: {sample['text']}") print(f"音素标注: {sample['phonemized_text']}") print(f"时长: {sample['duration']}s") print(f"说话人ID: {sample['speaker']}") print(f"性别: {sample['gender']}") print(f"音频形状: {sample['audio']['array'].shape}") print(f"采样率: {sample['audio']['sampling_rate']} Hz") ## 数据集统计信息 - **总样本量：** 74,858 - **说话人总数：** 193位 - **单样本平均时长：** ~6.76秒 - **总时长：** ~140.7小时 - **音频质量：** WAV格式，24kHz采样率 - **音素标注规范：** 带重音标记的国际音标（IPA） ## 授权协议本数据集采用Apache 2.0开源协议发布。你可以： ✅ 用于商业用途 ✅ 修改并分发 ✅ 再次授权 ✅ 用于私有项目需遵循以下条件： 📝 保留原版权声明与协议文本 📝 明确标注所做的修改内容 📝 附带Apache 2.0协议副本 ⚠️ **注意：** 本数据集按“现状”提供，不附带任何明示或默示的担保。详细协议内容请访问：https://www.apache.org/licenses/LICENSE-2.0 使用本数据集时请注明原出处。 ## 引用格式 bibtex @dataset{vieneu_tts_140h, author = {Pham Nguyen Ngoc Bao}, title = {VieNeu-TTS: Vietnamese Multi-Speaker Text-to-Speech Dataset}, year = {2025}, publisher = {Hugging Face}, howpublished = {url{https://huggingface.co/datasets/pnnbao-ump/VieNeu-TTS}}, note = {140.7 hours, 193 speakers, Apache 2.0 License} } ## 联系方式如有任何疑问或问题，请在代码仓库中提交Issue。 --- **作者：** Pham Nguyen Ngoc Bao **发布年份：** 2025

提供机构：

maas

创建时间：

2025-11-05

5,000+

优质数据集

54 个

任务类型

进入经典数据集