ViVoice34

Hugging Face2026-05-08 更新2026-05-09 收录

下载链接：

https://huggingface.co/datasets/anonymous-vivoice34/ViVoice34

下载链接

链接失效反馈

官方服务：

资源简介：

ViVoice-34是一个越南语语音数据集，收录了来自越南34个省份的说话者的录音。每个音频样本（WAV格式，16kHz单声道）包含完整的越南语转录文本以及丰富的元数据，如说话者信息（性别、年龄组、省份、地区）、内容多样性（新闻、播客、会议、访谈、日常对话等）和语言注释（本地词汇、外来词、总词数）。数据集包含7,052个音频样本，时长范围为1秒至68秒，其中1,880个样本时长超过30秒。数据集分为训练集（5,642个样本）和验证集（1,410个样本）。适用于自动语音识别、音频分类、说话者识别和验证等任务。

ViVoice-34 is a Vietnamese speech dataset that includes recordings from speakers across 34 provinces in Vietnam. Each audio sample (WAV format, 16kHz mono) contains complete Vietnamese transcriptions along with rich metadata, such as speaker information (gender, age group, province, region), content diversity (news, podcasts, meetings, interviews, daily conversations, etc.), and linguistic annotations (local vocabulary, loanwords, total word count). The dataset consists of 7,052 audio samples with durations ranging from 1 to 68 seconds, of which 1,880 samples exceed 30 seconds. It is divided into a training set (5,642 samples) and a validation set (1,410 samples). The dataset is suitable for tasks such as automatic speech recognition, audio classification, speaker identification, and verification.

创建时间：

2026-05-05

原始信息汇总

ViVoice-34 越南语语音数据集

数据集简介

ViVoice-34 是一个越南语语音数据集，包含来自越南 34 个省份的说话者录音。每个音频样本均提供完整转录文本及丰富的说话者和内容元数据。

注意：仓库内直接包含的音频样本仅为预览样本（每个说话者一个样本），完整数据集以 ZIP 文件形式存放于 Files and versions 部分。

关键特性

样本数量：7,052 个音频样本（WAV 格式，16kHz 单声道）
文本内容：提供完整的越南语转录文本
地域覆盖：覆盖越南南北中部 34 个省份
说话者元数据：性别、年龄组、省份、地区
内容多样性：新闻、播客、会议、采访、日常对话等
语言标注：本地词、外来词、总词数
时长范围：1 秒至 68 秒（其中 1,880 个样本时长 ≥ 30 秒）

数据集划分

划分	样本数
训练集	5,642
验证集	1,410

数据字段说明

字段	类型	描述
audio	Audio	波形数据（含集成播放器）
transcript	string	完整的越南语转录文本
speaker_id	string	说话者标识符
speaker_name	string	说话者显示名称（匿名化）
province	string	说话者所属省份
region	string	地区（北部/中部/南部）
gender	string	性别（男/女）
age_group	string	年龄组（儿童/青少年/成人/中年）
duration_s	float	音频时长（秒）
local_word	string	使用的本地/方言词汇
loanword	string	外来词（外语来源词汇）
total_word	int	总词数
province_code	string	省份代码
field	string	内容领域（新闻、播客、会议等）

注意：/data 目录下的样本子集仅包含从 decoded/metadata.csv 导出的字段，源元数据中缺失的字段在样本子集中保持为空。

使用示例

python from datasets import load_dataset

ds = load_dataset("anonymous-vivoice34/ViVoice34") print(ds)

播放一个样本

sample = ds["train"][0] print(f"说话者: {sample[speaker_name]}") print(f"省份: {sample[province]}") print(f"转录文本: {sample[transcript][:200]}...")

按地区筛选

north_samples = ds["train"].filter(lambda x: x["region"] == "North") print(f"北部样本数: {len(north_samples)}")

引用

若使用该数据集，请引用： bibtex @dataset{vivoice34_2026, title={ViVoice-34: Vietnamese Speech Dataset from 34 Provinces}, year={2026}, url={https://huggingface.co/datasets/anonymous-vivoice34/ViVoice34} }

许可协议

该数据集采用 CC-BY-4.0 许可证发布。

搜集汇总

数据集介绍

构建方式

ViVoice34数据集专为越南语语音研究而构建，覆盖越南全国34个省份的方言多样性。数据集包含7,052条WAV格式音频样本，均以16kHz单声道采样，并配有完整的越南语转写文本。每位说话者提供一条预览样本，完整数据则以ZIP压缩包形式存储于仓库的文件与版本部分。数据划分上，训练集包含5,642条样本，验证集包含1,410条样本，确保模型训练与评估的平衡性。

使用方法

用户可通过HuggingFace的datasets库便捷加载数据集，使用load_dataset函数即可获取训练与验证分割。示例代码展示了访问音频波形、说话者信息及转写文本的方法。数据集支持基于地区的过滤操作，例如筛选北部地区的样本，便于区域特定模型训练。所有字段均为结构化的字符串或数值类型，便于与主流语音处理框架集成。该数据集采用CC-BY-4.0许可协议，使用时需在学术出版物中引用其DOI标识。

背景与挑战

背景概述

在自动语音识别与说话人识别领域，越南语作为一种声调语言，其方言多样性与语音资源匮乏的矛盾长期制约着研究进展。ViVoice-34数据集于2026年由匿名研究团队发布，旨在填补越南语多方言语音数据的空白。该数据集精心收录了来自越南34个省份共计7,052条语音样本，覆盖北部、中部和南部三大方言区，包含新闻播报、播客、会议访谈及日常对话等多种内容类型。基于CC-BY-4.0许可协议，该数据集不仅提供了完整的转写文本与声学特征，还标注了说话人的性别、年龄段、籍贯及籍贯区划等丰富元数据，为越南语语音识别、方言辨识、说话人验证等研究提供了标准化的基准资源，显著推动了低资源语言语音技术的发展。

当前挑战

ViVoice-34数据集所解决的领域挑战主要有三：其一，越南语方言间音系与词汇差异明显，传统语音模型在此类多方言场景下泛化能力不足，该数据集通过系统性地收录34个省份的说话人语料，为构建方言鲁棒的语音识别系统提供了关键训练素材。其二，越南语中存在大量本地词汇与外来借词，这些语言现象在现有语料库中常被忽视，数据集中明确标注的本地词与借词字段为探索语言接触与语音变体研究开辟了新路径。其三，构建过程中面临显著挑战，包括在34个省份间的跨地域数据采集协调、不同录制环境下音频质量一致性控制，以及对说话人身份进行匿名化处理与元数据保密性保障，这些工作确保了数据集的学术规范性与可复现性。

常用场景

经典使用场景

ViVoice34数据集为越南语自动语音识别（ASR）系统的训练与评估提供了核心支撑，尤其适用于多方言、多口音场景下的鲁棒性建模。该数据集收录了来自越南34个省份的7052条语音样本，覆盖北部、中部与南部三大方言区，并包含新闻播报、播客讨论、会议录音、访谈及日常对话等多种内容类型。研究者可利用其丰富的元数据信息（如性别、年龄组、地域标注）进行细粒度的声学模型调优与语言模型适应。此外，该数据集还适用于说话人识别与验证任务，通过speaker_id和地域标签实现跨身份与跨区域的声纹特征分析，为多模态语音系统的构建奠定基础。

解决学术问题

ViVoice34数据集系统性地回应了越南语语音处理中地域方言差异大、训练数据稀缺这一长期困扰学术界的难题。以往多数越南语数据集仅局限于河内或胡志明市等主要城市的口音，导致模型在应对偏远地区方言时性能急剧下降。该数据集通过覆盖34个省份的录音，为方言感知的声学建模与发音变异研究提供了标准化基准。同时，它解决了说话人识别中身份信息与地域属性耦合的学术问题，使研究者能够探索如何解耦声纹特征中的地域印记与说话人固有特征，推动文本无关说话人验证技术的泛化能力提升。

实际应用

在实际应用层面，ViVoice34数据集赋能了多项越南语智能语音产品的研发与落地。在智能客服领域，基于该数据集训练的ASR系统能够精准识别带有中部或南部方言口音的语音指令，显著提升了银行、电信等行业自动语音导航的服务覆盖率。在内容审核场景中，模型可借助地域标签快速定位特定地区的语音内容，辅助舆情监测与方言广播节目的自动转写。此外，该数据集助力移动端语音输入法实现跨方言的通用语音转写功能，减少用户手动纠错的频率，并支持老年人等特定年龄群体口音的自适应识别，提升了语音交互的无障碍体验。

数据集最近研究