five

VietAI/spoken_norm_assignment

收藏
Hugging Face2022-07-12 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/VietAI/spoken_norm_assignment
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于越南语的逆向文本归一化(ITN)任务,该任务在自动语音识别(ASR)系统中尤为重要,可以提高系统输出的可读性。数据集中包含时间和日期、数字和度量单位、电话号码等类型的数据。数据集分为训练集、验证集和测试集,分别包含500,000、2,500和2,500个实例。
提供机构:
VietAI
原始信息汇总

越南语逆文本规范化数据集概述

数据集描述

本数据集专为越南语逆文本规范化(ITN)任务设计,旨在将口语风格转换为书面风格,以提升自动语音识别(ASR)系统的输出可读性。数据集包含多种类型的口语到书面语的转换实例,如时间日期、数字单位和电话号码等。

数据集示例

口语表达 书面表达 类型
tám giờ chín phút ngày ba tháng tư năm hai nghìn 8h9 3/4/2000 时间日期
tám mét khối năm mươi ki lô gam 8m3 50 kg 数字单位
không chín sáu hai bảy bảy chín chín không bốn 0962779904 电话号码

数据分割

数据集分为三个部分:训练集、验证集和测试集。训练集和验证集提供输入(源)及其对应的标签(目标),而测试集仅提供输入(源)。

数据集分割 实例数量
训练集 500,000
验证集 2,500
测试集 2,500
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作