five

anjalyjayakrishnan/test

收藏
Hugging Face2023-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anjalyjayakrishnan/test
下载链接
链接失效反馈
官方服务:
资源简介:
Snow Mountain数据集包含11种印度语言的圣经音频录音(以.mp3格式)和相应的文本。录音由母语者在录音室环境中完成,每种语言在数据集中只有一个说话者。这些语言大多集中在印度北部的喜马偕尔邦附近,并且由于与印地语相关,它们都使用天城文进行转录。该数据集已用于自动语音识别任务的实验,但也可用于语音领域的其他应用,如说话人识别、语言识别,甚至作为预训练的无标签语料库。
提供机构:
anjalyjayakrishnan
原始信息汇总

数据集概述

数据集名称: Snow Mountain

语言:

  • Hindi
  • Haryanvi
  • Bilaspuri
  • Dogri
  • Bhadrawahi
  • Gaddi
  • Kangri
  • Kulvi
  • Mandeali
  • Kulvi Outer Seraji
  • Pahari Mahasui

支持的任务:

  • 自动语音识别
  • 说话人识别
  • 语言识别

数据集大小:

  • 总时长: 71.41小时 (hi配置) + 27.41小时 (bgc配置)

数据集结构:

  • 配置 hi:
    • 特征:
      • Unnamed: int64
      • sentence: string
      • path: string
    • 分割:
      • train_500: 400个样本
      • val_500: 100个样本
      • train_1000: 800个样本
      • val_1000: 200个样本
      • test_common: 500个样本
  • 配置 bgc:
    • 特征:
      • Unnamed: int64
      • sentence: string
      • path: string
    • 分割:
      • train_500: 400个样本
      • val_500: 100个样本
      • train_1000: 800个样本
      • val_1000: 200个样本
      • test_common: 500个样本

数据集创建:

  • 源数据: 《圣经》录音由母语者在一个工作室环境中完成。
  • 许可证: Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)

引用信息:

@inproceedings{Raju2022SnowMD, title={Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages}, author={Kavitha Raju and V. Anjaly and R. Allen Lish and Joel Mathew}, year={2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作