bridgeconn/snow-mountain

Name: bridgeconn/snow-mountain
Creator: bridgeconn
Published: 2023-05-23 05:42:14
License: 暂无描述

Hugging Face2023-05-23 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bridgeconn/snow-mountain

下载链接

链接失效反馈

官方服务：

资源简介：

Snow Mountain数据集包含11种印度语言的圣经音频录音（.mp3格式）和对应的文本（包括旧约和新约）。录音由母语者在工作室环境中完成，每种语言在数据集中只有一个说话者。这些语言大多集中在印度北部的喜马偕尔邦附近，与印地语相关，使用天城文进行转录。该数据集主要用于自动语音识别（ASR）任务，但也适用于说话人识别、语言识别或作为预训练的无标签语料库。数据集结构包括清理后的音频文件、实验数据分割和原始音频文件。数据点包括音频文件路径和其转录文本。数据分割包括训练和验证集，以及包含所有和短音频的两个CSV文件。加载时间因语言和书籍类型而异。数据集遵循CC BY-SA 4.0许可。

提供机构：

bridgeconn

原始信息汇总

Snow Mountain 数据集概述

数据集描述

数据集摘要

Snow Mountain 数据集包含11种印度语言的《圣经》（包括旧约和新约）的音频录音（.mp3格式）及其对应文本。录音由母语者在录音室环境中完成，每种语言仅有一位发言人。这些语言主要集中在印度北部喜马偕尔邦周围，与印地语相关，使用梵文脚本进行转录。

支持的任务和排行榜

该数据集可用于自动语音识别、语音转文本、说话人识别和语言识别等任务。

语言

数据集包含以下语言：印地语、哈里亚纳语、比拉斯普里语、多格里语、巴德拉瓦希语、加迪语、康格里语、库尔维语、曼德阿里语、库尔维外塞拉吉语、帕哈里·马哈苏伊语、马拉雅拉姆语、卡纳达语、泰米尔语、泰卢固语。

数据集结构

数据实例

每个数据点包含音频文件的路径（path）及其转录文本（sentence）。

数据字段

path：音频文件的路径
audio：包含下载的音频文件路径、解码的音频数组和采样率的字典
sentence：音频文件的转录文本

数据分割

数据集包含训练和验证分割，文件名指示实验和分割类别。此外，还包括两个CSV文件：all_verses 和 short_verses。short_verses.csv 包含长度小于10秒的音频及其对应转录文本，all_verses.csv 包含所有清理过的诗句，包括长音频和短音频。

数据集加载

原始音频文件以.mp3格式存储在raw文件夹中，实验所需的.wav格式音频文件存储在cleaned文件夹中。加载数据集的估计时间如下：

印地语（旧约书）：约20分钟
印地语少数民族语言（新约书）：约9分钟
达罗毗荼语（旧约+新约书）：约30分钟

详细信息

更多关于数据集创建和分割的详细信息，请参阅相关论文。

许可信息

数据集根据知识共享署名-相同方式共享4.0国际公共许可证（CC BY-SA 4.0）进行许可。

引用信息

如使用该数据集，请引用以下信息：

@inproceedings{Raju2022SnowMD, title={Snow Mountain: Dataset of Audio Recordings of The Bible in Low Resource Languages}, author={Kavitha Raju and V. Anjaly and R. Allen Lish and Joel Mathew}, year={2022} }

5,000+

优质数据集

54 个

任务类型

进入经典数据集