anjalyjayakrishnan/test

Name: anjalyjayakrishnan/test
Creator: anjalyjayakrishnan
Published: 2023-02-03 14:08:32
License: 暂无描述

Hugging Face2023-02-03 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/anjalyjayakrishnan/test

下载链接

链接失效反馈

官方服务：

资源简介：

Snow Mountain数据集包含11种印度语言的圣经音频录音（以.mp3格式）和相应的文本。录音由母语者在录音室环境中完成，每种语言在数据集中只有一个说话者。这些语言大多集中在印度北部的喜马偕尔邦附近，并且由于与印地语相关，它们都使用天城文进行转录。该数据集已用于自动语音识别任务的实验，但也可用于语音领域的其他应用，如说话人识别、语言识别，甚至作为预训练的无标签语料库。

提供机构：

anjalyjayakrishnan

原始信息汇总

数据集概述

数据集名称: Snow Mountain

语言:

Hindi
Haryanvi
Bilaspuri
Dogri
Bhadrawahi
Gaddi
Kangri
Kulvi
Mandeali
Kulvi Outer Seraji
Pahari Mahasui

支持的任务:

自动语音识别
说话人识别
语言识别

数据集大小:

总时长: 71.41小时 (hi配置) + 27.41小时 (bgc配置)

数据集结构:

配置 hi:
- 特征:
  - Unnamed: int64
  - sentence: string
  - path: string
- 分割:
  - train_500: 400个样本
  - val_500: 100个样本
  - train_1000: 800个样本
  - val_1000: 200个样本
  - test_common: 500个样本
配置 bgc:
- 特征:
  - Unnamed: int64
  - sentence: string
  - path: string
- 分割:
  - train_500: 400个样本
  - val_500: 100个样本
  - train_1000: 800个样本
  - val_1000: 200个样本
  - test_common: 500个样本

数据集创建:

源数据: 《圣经》录音由母语者在一个工作室环境中完成。
许可证: Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)

引用信息:

@inproceedings{Raju2022SnowMD, title={Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages}, author={Kavitha Raju and V. Anjaly and R. Allen Lish and Joel Mathew}, year={2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集