five

nguyenvulebinh/spoken_norm_pattern

收藏
Hugging Face2022-09-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nguyenvulebinh/spoken_norm_pattern
下载链接
链接失效反馈
官方服务:
资源简介:
越南语逆向文本归一化(ITN)数据集用于将口语风格转换为书面风格,特别是在自动语音识别(ASR)系统中,以提高输出的可读性。数据集包含时间、日期、数字和度量单位、电话号码等多种类型的示例。数据集分为训练集、验证集和测试集,分别包含500,000、2,500和2,500个实例。
提供机构:
nguyenvulebinh
原始信息汇总

Vietnamese Inverse Text Normalization 数据集概述

数据集目的

该数据集用于越南语的逆文本规范化(ITN)任务,旨在将口语转换为书面语,以提高自动语音识别(ASR)系统的输出可读性。

数据集内容示例

口语(源) 书面语(目标) 类型
tám giờ chín phút ngày ba tháng tư năm hai nghìn 8h9 3/4/2000 时间和日期
tám mét khối năm mươi ki lô gam 8m3 50 kg 数字和度量单位
không chín sáu hai bảy bảy chín chín không bốn 0962779904 电话号码

数据集结构

数据集分割 实例数量
训练集 500,000
验证集 2,500
测试集 2,500
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作