five

ai4bharat/kathbath

收藏
Hugging Face2022-12-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ai4bharat/kathbath
下载链接
链接失效反馈
官方服务:
资源简介:
Kathbath是一个包含12种印度语言的人工标注的自动语音识别(ASR)数据集,包含1,684小时的标注语音数据,来自1,218位贡献者,分布在印度的203个地区。数据集的结构包括音频数据和转录文本,分别存储在不同的语言文件夹中。数据集的创建过程涉及从公开网站爬取的文本数据,并由AI4Bharat团队进行音频转录和标注。数据集发布在MIT许可证下,并且AI4Bharat团队放弃了所有版权和相关权利。

Kathbath is a manually annotated Automatic Speech Recognition (ASR) dataset covering 12 Indian languages. It encompasses 1,684 hours of annotated speech data contributed by 1,218 individuals across 203 districts in India. The dataset is structured into two main components: audio data and transcribed text, which are stored in separate language-specific folders. The dataset was developed using text data crawled from public websites, with audio transcription and annotation carried out by the AI4Bharat team. It is released under the MIT License, and the AI4Bharat team has waived all copyright and related rights.
提供机构:
ai4bharat
原始信息汇总

数据集概述

数据集名称

  • Kathbath

数据集摘要

  • Kathbath是一个包含1,684小时标注语音数据的人工标注自动语音识别(ASR)数据集,涵盖12种印度语言,由1,218位来自印度203个地区的贡献者提供。

支持的任务

  • 自动语音识别(ASR)

语言

  • 包含以下12种印度语言:
    • 孟加拉语
    • 古吉拉特语
    • 卡纳达语
    • 印地语
    • 马拉雅拉姆语
    • 马拉地语
    • 奥里亚语
    • 旁遮普语
    • 梵语
    • 泰米尔语
    • 泰卢固语
    • 乌尔都语

数据集结构

  • 音频数据

    • 按语言分类,每个语言目录下包含不同的分割(如训练集、测试集)。
    • 示例文件:844424931537866-594-f.m4a
  • 转录文本

    • 同样按语言分类,每个语言目录下包含相应的转录文本文件。
    • 示例文件:transcription_n2w.txt

许可信息

  • 数据集根据MIT许可证发布。
  • 音频转录和标注由数据集创建者完成。
  • 数据集包装数据根据Creative Commons CC0许可证发布,即“无版权保留”。

引用信息

@misc{https://doi.org/10.48550/arxiv.2208.11761, doi = {10.48550/ARXIV.2208.11761}, url = {https://arxiv.org/abs/2208.11761}, author = {Javed, Tahir and Bhogale, Kaushal Santosh and Raman, Abhigyan and Kunchukuttan, Anoop and Kumar, Pratyush and Khapra, Mitesh M.}, title = {IndicSUPERB: A Speech Processing Universal Performance Benchmark for Indian languages}, publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} }

搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作