nguyenvulebinh/spoken_norm_pattern
收藏Hugging Face2022-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguyenvulebinh/spoken_norm_pattern
下载链接
链接失效反馈官方服务:
资源简介:
越南语逆向文本归一化(ITN)数据集用于将口语风格转换为书面风格,特别是在自动语音识别(ASR)系统中,以提高输出的可读性。数据集包含时间、日期、数字和度量单位、电话号码等多种类型的示例。数据集分为训练集、验证集和测试集,分别包含500,000、2,500和2,500个实例。
提供机构:
nguyenvulebinh
原始信息汇总
Vietnamese Inverse Text Normalization 数据集概述
数据集目的
该数据集用于越南语的逆文本规范化(ITN)任务,旨在将口语转换为书面语,以提高自动语音识别(ASR)系统的输出可读性。
数据集内容示例
| 口语(源) | 书面语(目标) | 类型 |
|---|---|---|
| tám giờ chín phút ngày ba tháng tư năm hai nghìn | 8h9 3/4/2000 | 时间和日期 |
| tám mét khối năm mươi ki lô gam | 8m3 50 kg | 数字和度量单位 |
| không chín sáu hai bảy bảy chín chín không bốn | 0962779904 | 电话号码 |
数据集结构
| 数据集分割 | 实例数量 |
|---|---|
| 训练集 | 500,000 |
| 验证集 | 2,500 |
| 测试集 | 2,500 |



