five

Salama1429/tarteel-ai-everyayah-Quran

收藏
Hugging Face2023-06-07 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/Salama1429/tarteel-ai-everyayah-Quran
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集名为Tarteel AI - EveryAyah Dataset,主要包含古兰经经文及其不同朗诵者的转录文本。数据集的结构包括音频文件、持续时间、文本和朗诵者信息。数据集分为训练集、测试集和验证集,分别包含187785、23473和23474个样本。数据集的音频为阿拉伯语,任务类别为自动语音识别(ASR)。数据集的创建过程涉及专家生成和众包,语言为阿拉伯语,许可证为MIT。

该数据集名为Tarteel AI - EveryAyah Dataset,主要包含古兰经经文及其不同朗诵者的转录文本。数据集的结构包括音频文件、持续时间、文本和朗诵者信息。数据集分为训练集、测试集和验证集,分别包含187785、23473和23474个样本。数据集的音频为阿拉伯语,任务类别为自动语音识别(ASR)。数据集的创建过程涉及专家生成和众包,语言为阿拉伯语,许可证为MIT。
提供机构:
Salama1429
原始信息汇总

数据集概述

  • 名称: Tarteel AI - EveryAyah Dataset
  • 特征:
    • audio: 音频数据
    • duration: 音频时长,数据类型为float64
    • text: 文本转录,数据类型为string
    • reciter: 朗诵者,数据类型为string
  • 数据分割:
    • train: 187785个样本,总字节数262627688145.3
    • test: 23473个样本,总字节数25156009734.72
    • validation: 23474个样本,总字节数23426886730.218
  • 下载大小: 117190597305字节
  • 数据集大小: 311210584610.23804字节
  • 语言: 阿拉伯语
  • 许可证: MIT
  • 任务类别: 自动语音识别
  • 训练-评估索引:
    • 配置: clean
    • 任务: automatic-speech-recognition
    • 任务ID: speech_recognition
    • 分割:
      • 训练分割: train
      • 评估分割: test
      • 验证分割: validation
    • 列映射:
      • audio: audio
      • text: text
      • reciter: text
    • 指标:
      • WER: 字错误率
      • CER: 字符错误率

数据集结构

  • 数据实例:
    • 包含音频文件audio及其转录text,音频时长duration,朗诵者reciter
  • 数据字段:
    • audio: 包含音频文件路径、解码音频数组和采样率。
    • text: 音频文件的转录。
    • duration: 音频文件的时长。
    • reciter: 朗诵者。
  • 数据分割:
    • train: 187785个样本
    • test: 23473个样本
    • validation: 23474个样本
  • 朗诵者:
    • 朗诵者数量: 36
    • 朗诵者列表: 包含36位不同的朗诵者。

数据集创建

  • 注释创建者: 专家生成
  • 语言创建者: 众包
  • 源数据集: 原始数据
  • 许可证: MIT
搜集汇总
数据集介绍
main_image_url
构建方式
在伊斯兰文化数字化的浪潮中,Tarteel AI EveryAyah数据集应运而生,其构建过程体现了严谨的学术态度。该数据集通过众包方式,汇集了来自三十六位不同朗诵者的《古兰经》经文录音,并辅以带变音符号的精确文本转录。数据采集后,专家团队对音频与文本进行了细致的对齐与校验,确保了每个数据实例中音频信号与阿拉伯语经文在内容与时间维度上的高度一致性。最终,数据集被划分为训练集、验证集和测试集,为语音识别模型的开发与评估提供了结构化的基础。
使用方法
在语音技术研究领域,本数据集为自动语音识别任务提供了标准化的应用路径。研究者可通过Hugging Face的`datasets`库便捷加载数据,利用其预定义的数据分割进行模型训练与评估。典型的使用流程涉及直接访问数据点中的`audio`字段获取解码后的音频阵列与采样率,并对应`text`字段获取标准转录文本。数据集中标注的`reciter`字段可用于分析不同朗诵风格对识别性能的影响,而`duration`信息则有助于进行音频长度相关的统计分析。模型性能通常采用词错误率和字符错误率等指标进行衡量,以客观评估其在宗教经典语音识别上的准确度。
背景与挑战
背景概述
在伊斯兰文化与数字技术融合的浪潮中,古兰经诵读的数字化保存与智能识别成为一项重要课题。Tarteel AI EveryAyah数据集由Tarteel AI团队于近年创建,旨在汇集多位著名诵读家的古兰经音频及其精确转写文本,并包含完整的变音符号标注。该数据集的核心研究问题聚焦于阿拉伯语自动语音识别,特别是针对古典阿拉伯语宗教文本的诵读变体识别,其影响力不仅推动了伊斯兰文化遗产的数字化进程,也为多方言、多风格的语音技术研究提供了宝贵资源。
当前挑战
该数据集致力于解决古典阿拉伯语自动语音识别中的独特挑战,包括处理复杂的变音符号系统、适应不同诵读家的发音风格差异,以及确保宗教文本转写的极高准确性。在构建过程中,团队面临数据采集与标注的双重困难:需要从多位诵读家中收集高质量、无噪声的音频,并依靠专家进行精细的文本对齐与变音标注,这一过程既耗时又要求深厚的语言学与宗教知识,以确保数据的一致性与权威性。
常用场景
经典使用场景
在阿拉伯语语音识别领域,Tarteel AI EveryAyah数据集为研究古兰经朗诵的自动转录提供了核心资源。该数据集收录了多位朗诵者的音频及其精确的带变音符号的文本转录,常用于训练和评估端到端的自动语音识别模型。通过涵盖多样的朗诵风格与发音变体,它使得模型能够学习到宗教经典朗诵中特有的韵律、停顿和语音特征,为高精度阿拉伯语宗教文本识别奠定了数据基础。
解决学术问题
该数据集有效解决了阿拉伯语自动语音识别中因缺乏大规模、高质量、带精细标注的宗教语音数据而面临的挑战。它支持研究者探索低资源语言场景下的语音模型泛化能力,并促进了对变音符号识别、朗诵风格适应以及跨朗诵者鲁棒性等关键学术问题的深入研究。其存在显著推动了阿拉伯语自然语言处理技术在文化遗产数字化领域的进展,为语音技术在宗教和教育场景的应用提供了理论支撑。
实际应用
在实际应用中,该数据集支撑了多种面向穆斯林社群的智能工具开发。例如,基于其训练的模型可用于构建古兰经朗诵辅助应用,实现实时朗诵校对、发音评估和自动跟读反馈。此外,它也服务于有声经典的自动索引与检索系统,方便用户快速定位经文,并助力于开发面向视障人士的语音交互式古兰经学习平台,提升了宗教文本的可访问性与教育价值。
数据集最近研究
最新研究方向
在伊斯兰文化与人工智能交叉领域,Tarteel AI EveryAyah数据集作为首个大规模、多诵经者标注的阿拉伯语《古兰经》音频数据集,正推动着自动语音识别技术在古典宗教文本处理中的前沿探索。该数据集凭借其精确的经文转写与音韵标注,为低资源语言场景下的端到端语音识别模型提供了关键训练资源,尤其在处理阿拉伯语复杂发音规则与诵经韵律方面展现出独特价值。当前研究热点聚焦于利用该数据集开发高精度诵经错误检测系统,以辅助宗教学习与传承;同时,结合多任务学习框架,探索其在跨语言语音合成与音素识别任务中的迁移潜力。这些进展不仅深化了语音技术对文化遗产数字化的支撑作用,也为全球超过十亿穆斯林用户的宗教实践智能化开辟了新路径,体现了技术应用与人文关怀的深度融合。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作