ViVoice34
收藏ViVoice-34 越南语语音数据集
数据集简介
ViVoice-34 是一个越南语语音数据集,包含来自越南 34 个省份的说话者录音。每个音频样本均提供完整转录文本及丰富的说话者和内容元数据。
注意:仓库内直接包含的音频样本仅为预览样本(每个说话者一个样本),完整数据集以 ZIP 文件形式存放于 Files and versions 部分。
关键特性
- 样本数量:7,052 个音频样本(WAV 格式,16kHz 单声道)
- 文本内容:提供完整的越南语转录文本
- 地域覆盖:覆盖越南南北中部 34 个省份
- 说话者元数据:性别、年龄组、省份、地区
- 内容多样性:新闻、播客、会议、采访、日常对话等
- 语言标注:本地词、外来词、总词数
- 时长范围:1 秒至 68 秒(其中 1,880 个样本时长 ≥ 30 秒)
数据集划分
| 划分 | 样本数 |
|---|---|
| 训练集 | 5,642 |
| 验证集 | 1,410 |
数据字段说明
| 字段 | 类型 | 描述 |
|---|---|---|
| audio | Audio | 波形数据(含集成播放器) |
| transcript | string | 完整的越南语转录文本 |
| speaker_id | string | 说话者标识符 |
| speaker_name | string | 说话者显示名称(匿名化) |
| province | string | 说话者所属省份 |
| region | string | 地区(北部/中部/南部) |
| gender | string | 性别(男/女) |
| age_group | string | 年龄组(儿童/青少年/成人/中年) |
| duration_s | float | 音频时长(秒) |
| local_word | string | 使用的本地/方言词汇 |
| loanword | string | 外来词(外语来源词汇) |
| total_word | int | 总词数 |
| province_code | string | 省份代码 |
| field | string | 内容领域(新闻、播客、会议等) |
注意:/data 目录下的样本子集仅包含从 decoded/metadata.csv 导出的字段,源元数据中缺失的字段在样本子集中保持为空。
使用示例
python from datasets import load_dataset
ds = load_dataset("anonymous-vivoice34/ViVoice34") print(ds)
播放一个样本
sample = ds["train"][0] print(f"说话者: {sample[speaker_name]}") print(f"省份: {sample[province]}") print(f"转录文本: {sample[transcript][:200]}...")
按地区筛选
north_samples = ds["train"].filter(lambda x: x["region"] == "North") print(f"北部样本数: {len(north_samples)}")
引用
若使用该数据集,请引用: bibtex @dataset{vivoice34_2026, title={ViVoice-34: Vietnamese Speech Dataset from 34 Provinces}, year={2026}, url={https://huggingface.co/datasets/anonymous-vivoice34/ViVoice34} }
许可协议
该数据集采用 CC-BY-4.0 许可证发布。




