five

bridgeconn/snow-mountain

收藏
Hugging Face2023-05-23 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bridgeconn/snow-mountain
下载链接
链接失效反馈
官方服务:
资源简介:
Snow Mountain数据集包含11种印度语言的圣经音频录音(.mp3格式)和对应的文本(包括旧约和新约)。录音由母语者在工作室环境中完成,每种语言在数据集中只有一个说话者。这些语言大多集中在印度北部的喜马偕尔邦附近,与印地语相关,使用天城文进行转录。该数据集主要用于自动语音识别(ASR)任务,但也适用于说话人识别、语言识别或作为预训练的无标签语料库。数据集结构包括清理后的音频文件、实验数据分割和原始音频文件。数据点包括音频文件路径和其转录文本。数据分割包括训练和验证集,以及包含所有和短音频的两个CSV文件。加载时间因语言和书籍类型而异。数据集遵循CC BY-SA 4.0许可。
提供机构:
bridgeconn
原始信息汇总

Snow Mountain 数据集概述

数据集描述

数据集摘要

Snow Mountain 数据集包含11种印度语言的《圣经》(包括旧约和新约)的音频录音(.mp3格式)及其对应文本。录音由母语者在录音室环境中完成,每种语言仅有一位发言人。这些语言主要集中在印度北部喜马偕尔邦周围,与印地语相关,使用梵文脚本进行转录。

支持的任务和排行榜

该数据集可用于自动语音识别、语音转文本、说话人识别和语言识别等任务。

语言

数据集包含以下语言:印地语、哈里亚纳语、比拉斯普里语、多格里语、巴德拉瓦希语、加迪语、康格里语、库尔维语、曼德阿里语、库尔维外塞拉吉语、帕哈里·马哈苏伊语、马拉雅拉姆语、卡纳达语、泰米尔语、泰卢固语。

数据集结构

数据实例

每个数据点包含音频文件的路径(path)及其转录文本(sentence)。

数据字段

  • path:音频文件的路径
  • audio:包含下载的音频文件路径、解码的音频数组和采样率的字典
  • sentence:音频文件的转录文本

数据分割

数据集包含训练和验证分割,文件名指示实验和分割类别。此外,还包括两个CSV文件:all_versesshort_versesshort_verses.csv 包含长度小于10秒的音频及其对应转录文本,all_verses.csv 包含所有清理过的诗句,包括长音频和短音频。

数据集加载

原始音频文件以.mp3格式存储在raw文件夹中,实验所需的.wav格式音频文件存储在cleaned文件夹中。加载数据集的估计时间如下:

  • 印地语(旧约书):约20分钟
  • 印地语少数民族语言(新约书):约9分钟
  • 达罗毗荼语(旧约+新约书):约30分钟

详细信息

更多关于数据集创建和分割的详细信息,请参阅相关论文。

许可信息

数据集根据知识共享署名-相同方式共享4.0国际公共许可证(CC BY-SA 4.0)进行许可。

引用信息

如使用该数据集,请引用以下信息:

@inproceedings{Raju2022SnowMD, title={Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages}, author={Kavitha Raju and V. Anjaly and R. Allen Lish and Joel Mathew}, year={2022} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作