VietAI/spoken_norm_assignment
收藏Hugging Face2022-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VietAI/spoken_norm_assignment
下载链接
链接失效反馈官方服务:
资源简介:
该数据集用于越南语的逆向文本归一化(ITN)任务,该任务在自动语音识别(ASR)系统中尤为重要,可以提高系统输出的可读性。数据集中包含时间和日期、数字和度量单位、电话号码等类型的数据。数据集分为训练集、验证集和测试集,分别包含500,000、2,500和2,500个实例。
提供机构:
VietAI
原始信息汇总
越南语逆文本规范化数据集概述
数据集描述
本数据集专为越南语逆文本规范化(ITN)任务设计,旨在将口语风格转换为书面风格,以提升自动语音识别(ASR)系统的输出可读性。数据集包含多种类型的口语到书面语的转换实例,如时间日期、数字单位和电话号码等。
数据集示例
| 口语表达 | 书面表达 | 类型 |
|---|---|---|
| tám giờ chín phút ngày ba tháng tư năm hai nghìn | 8h9 3/4/2000 | 时间日期 |
| tám mét khối năm mươi ki lô gam | 8m3 50 kg | 数字单位 |
| không chín sáu hai bảy bảy chín chín không bốn | 0962779904 | 电话号码 |
数据分割
数据集分为三个部分:训练集、验证集和测试集。训练集和验证集提供输入(源)及其对应的标签(目标),而测试集仅提供输入(源)。
| 数据集分割 | 实例数量 |
|---|---|
| 训练集 | 500,000 |
| 验证集 | 2,500 |
| 测试集 | 2,500 |
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



