Salama1429/tarteel-ai-everyayah-Quran

Name: Salama1429/tarteel-ai-everyayah-Quran
Creator: Salama1429
Published: 2023-06-07 14:17:32
License: 暂无描述

Hugging Face2023-06-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/Salama1429/tarteel-ai-everyayah-Quran

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Tarteel AI - EveryAyah Dataset，主要包含古兰经经文及其不同朗诵者的转录文本。数据集的结构包括音频文件、持续时间、文本和朗诵者信息。数据集分为训练集、测试集和验证集，分别包含187785、23473和23474个样本。数据集的音频为阿拉伯语，任务类别为自动语音识别（ASR）。数据集的创建过程涉及专家生成和众包，语言为阿拉伯语，许可证为MIT。

提供机构：

Salama1429

原始信息汇总

数据集概述

名称: Tarteel AI - EveryAyah Dataset
特征:
- audio: 音频数据
- duration: 音频时长，数据类型为float64
- text: 文本转录，数据类型为string
- reciter: 朗诵者，数据类型为string
数据分割:
- train: 187785个样本，总字节数262627688145.3
- test: 23473个样本，总字节数25156009734.72
- validation: 23474个样本，总字节数23426886730.218
下载大小: 117190597305字节
数据集大小: 311210584610.23804字节
语言: 阿拉伯语
许可证: MIT
任务类别: 自动语音识别
训练-评估索引:
- 配置: clean
- 任务: automatic-speech-recognition
- 任务ID: speech_recognition
- 分割:
  - 训练分割: train
  - 评估分割: test
  - 验证分割: validation
- 列映射:
  - audio: audio
  - text: text
  - reciter: text
- 指标:
  - WER: 字错误率
  - CER: 字符错误率

数据集结构

数据实例:
- 包含音频文件audio及其转录text，音频时长duration，朗诵者reciter。
数据字段:
- audio: 包含音频文件路径、解码音频数组和采样率。
- text: 音频文件的转录。
- duration: 音频文件的时长。
- reciter: 朗诵者。
数据分割:
- train: 187785个样本
- test: 23473个样本
- validation: 23474个样本
朗诵者:
- 朗诵者数量: 36
- 朗诵者列表: 包含36位不同的朗诵者。

数据集创建

注释创建者: 专家生成
语言创建者: 众包
源数据集: 原始数据
许可证: MIT

搜集汇总

数据集介绍

构建方式

在伊斯兰文化数字化的浪潮中，Tarteel AI EveryAyah数据集应运而生，其构建过程体现了严谨的学术态度。该数据集通过众包方式，汇集了来自三十六位不同朗诵者的《古兰经》经文录音，并辅以带变音符号的精确文本转录。数据采集后，专家团队对音频与文本进行了细致的对齐与校验，确保了每个数据实例中音频信号与阿拉伯语经文在内容与时间维度上的高度一致性。最终，数据集被划分为训练集、验证集和测试集，为语音识别模型的开发与评估提供了结构化的基础。

使用方法

在语音技术研究领域，本数据集为自动语音识别任务提供了标准化的应用路径。研究者可通过Hugging Face的`datasets`库便捷加载数据，利用其预定义的数据分割进行模型训练与评估。典型的使用流程涉及直接访问数据点中的`audio`字段获取解码后的音频阵列与采样率，并对应`text`字段获取标准转录文本。数据集中标注的`reciter`字段可用于分析不同朗诵风格对识别性能的影响，而`duration`信息则有助于进行音频长度相关的统计分析。模型性能通常采用词错误率和字符错误率等指标进行衡量，以客观评估其在宗教经典语音识别上的准确度。

背景与挑战

背景概述

在伊斯兰文化与数字技术融合的浪潮中，古兰经诵读的数字化保存与智能识别成为一项重要课题。Tarteel AI EveryAyah数据集由Tarteel AI团队于近年创建，旨在汇集多位著名诵读家的古兰经音频及其精确转写文本，并包含完整的变音符号标注。该数据集的核心研究问题聚焦于阿拉伯语自动语音识别，特别是针对古典阿拉伯语宗教文本的诵读变体识别，其影响力不仅推动了伊斯兰文化遗产的数字化进程，也为多方言、多风格的语音技术研究提供了宝贵资源。

当前挑战

该数据集致力于解决古典阿拉伯语自动语音识别中的独特挑战，包括处理复杂的变音符号系统、适应不同诵读家的发音风格差异，以及确保宗教文本转写的极高准确性。在构建过程中，团队面临数据采集与标注的双重困难：需要从多位诵读家中收集高质量、无噪声的音频，并依靠专家进行精细的文本对齐与变音标注，这一过程既耗时又要求深厚的语言学与宗教知识，以确保数据的一致性与权威性。

常用场景

经典使用场景

在阿拉伯语语音识别领域，Tarteel AI EveryAyah数据集为研究古兰经朗诵的自动转录提供了核心资源。该数据集收录了多位朗诵者的音频及其精确的带变音符号的文本转录，常用于训练和评估端到端的自动语音识别模型。通过涵盖多样的朗诵风格与发音变体，它使得模型能够学习到宗教经典朗诵中特有的韵律、停顿和语音特征，为高精度阿拉伯语宗教文本识别奠定了数据基础。

解决学术问题

该数据集有效解决了阿拉伯语自动语音识别中因缺乏大规模、高质量、带精细标注的宗教语音数据而面临的挑战。它支持研究者探索低资源语言场景下的语音模型泛化能力，并促进了对变音符号识别、朗诵风格适应以及跨朗诵者鲁棒性等关键学术问题的深入研究。其存在显著推动了阿拉伯语自然语言处理技术在文化遗产数字化领域的进展，为语音技术在宗教和教育场景的应用提供了理论支撑。

实际应用

在实际应用中，该数据集支撑了多种面向穆斯林社群的智能工具开发。例如，基于其训练的模型可用于构建古兰经朗诵辅助应用，实现实时朗诵校对、发音评估和自动跟读反馈。此外，它也服务于有声经典的自动索引与检索系统，方便用户快速定位经文，并助力于开发面向视障人士的语音交互式古兰经学习平台，提升了宗教文本的可访问性与教育价值。

数据集最近研究