anjalyjayakrishnan/test
收藏Hugging Face2023-02-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/anjalyjayakrishnan/test
下载链接
链接失效反馈官方服务:
资源简介:
Snow Mountain数据集包含11种印度语言的圣经音频录音(以.mp3格式)和相应的文本。录音由母语者在录音室环境中完成,每种语言在数据集中只有一个说话者。这些语言大多集中在印度北部的喜马偕尔邦附近,并且由于与印地语相关,它们都使用天城文进行转录。该数据集已用于自动语音识别任务的实验,但也可用于语音领域的其他应用,如说话人识别、语言识别,甚至作为预训练的无标签语料库。
提供机构:
anjalyjayakrishnan
原始信息汇总
数据集概述
数据集名称: Snow Mountain
语言:
- Hindi
- Haryanvi
- Bilaspuri
- Dogri
- Bhadrawahi
- Gaddi
- Kangri
- Kulvi
- Mandeali
- Kulvi Outer Seraji
- Pahari Mahasui
支持的任务:
- 自动语音识别
- 说话人识别
- 语言识别
数据集大小:
- 总时长: 71.41小时 (hi配置) + 27.41小时 (bgc配置)
数据集结构:
- 配置 hi:
- 特征:
- Unnamed: int64
- sentence: string
- path: string
- 分割:
- train_500: 400个样本
- val_500: 100个样本
- train_1000: 800个样本
- val_1000: 200个样本
- test_common: 500个样本
- 特征:
- 配置 bgc:
- 特征:
- Unnamed: int64
- sentence: string
- path: string
- 分割:
- train_500: 400个样本
- val_500: 100个样本
- train_1000: 800个样本
- val_1000: 200个样本
- test_common: 500个样本
- 特征:
数据集创建:
- 源数据: 《圣经》录音由母语者在一个工作室环境中完成。
- 许可证: Creative Commons Attribution-ShareAlike 4.0 International Public License (CC BY-SA 4.0)
引用信息:
@inproceedings{Raju2022SnowMD, title={Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages}, author={Kavitha Raju and V. Anjaly and R. Allen Lish and Joel Mathew}, year={2022} }



