five

Vistaar

收藏
arXiv2023-08-02 更新2024-06-21 收录
下载链接:
https://github.com/AI4Bharat/vistaar
下载链接
链接失效反馈
官方服务:
资源简介:
Vistaar是一个专注于印度语言自动语音识别(ASR)的多样化基准数据集,由AI4Bharat等机构创建。该数据集包含59个基准,覆盖12种印度语言和多种领域/类型,总计超过10,700小时的音频数据。创建过程中,研究人员整合了多个公开可用的训练集,并特别设计了硬基准以增加挑战性。Vistaar的应用领域广泛,旨在通过提供多样化的数据集来评估和改进ASR系统,特别是在印度语言的语音识别技术上。
提供机构:
AI4Bharat, 印度
创建时间:
2023-05-25
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
Vistaar是一个包含59个基准和训练数据集的集合,涵盖12种印度语言,总时长超过10,700小时,用于自动语音识别(ASR)任务。该数据集支持IndicWhisper模型的训练,在多个基准测试中表现出较低的词错误率,适用于新闻、教育、文学和旅游等多种领域。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作