khaledalganem/sada2022
收藏Hugging Face2024-05-30 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/khaledalganem/sada2022
下载链接
链接失效反馈官方服务:
资源简介:
---
license:
- cc-by-nc-sa-4.0
converted_from: kaggle
kaggle_id: sdaiancai/sada2022
---
# Dataset Card for SADA صدى
## Table of Contents
- [Table of Contents](#table-of-contents)
- [Dataset Description](#dataset-description)
- [Dataset Summary](#dataset-summary)
- [Supported Tasks and Leaderboards](#supported-tasks-and-leaderboards)
- [Languages](#languages)
- [Dataset Structure](#dataset-structure)
- [Data Instances](#data-instances)
- [Data Fields](#data-fields)
- [Data Splits](#data-splits)
- [Dataset Creation](#dataset-creation)
- [Curation Rationale](#curation-rationale)
- [Source Data](#source-data)
- [Annotations](#annotations)
- [Personal and Sensitive Information](#personal-and-sensitive-information)
- [Considerations for Using the Data](#considerations-for-using-the-data)
- [Social Impact of Dataset](#social-impact-of-dataset)
- [Discussion of Biases](#discussion-of-biases)
- [Other Known Limitations](#other-known-limitations)
- [Additional Information](#additional-information)
- [Dataset Curators](#dataset-curators)
- [Licensing Information](#licensing-information)
- [Citation Information](#citation-information)
- [Contributions](#contributions)
## Dataset Description
- **Homepage:** https://kaggle.com/datasets/sdaiancai/sada2022
- **Repository:**
- **Paper:**
- **Leaderboard:**
- **Point of Contact:**
### Dataset Summary

يعتبر توفر البيانات من أهم ممكنات تطوير نماذج ذكاء اصطناعي متفوقة إن لم يكن أهمها، ولكن لا تزال البيانات الصوتية المفتوحة وخصوصاً باللغة العربية ولهجاتها المختلفة شحيحة المصدر.
ومن هذا المنطلق وحرصًا على إطلاق القيمة الكامنة للبيانات وتمكين تطوير منتجات مبنية على الذكاء الاصطناعي، قام المركز الوطني للذكاء الاصطناعي في سدايا (الهيئة الوطنية للبيانات والذكاء الاصطناعي) بالتعاون مع الهيئة السعودية للإذاعة والتلفزيون بنشر مجموعة بيانات "صدى". وتحتوي تقريبًا على ٦٦٧ ساعة صوتية مع تفريغها النصي وهذه الساعات باللغة العربية حيث تشكل اللهجات السعودية معظمها.
تتجاوز البيانات الموجودة ٦٠٠ ساعة من أكثر من ٥٧ برنامج ومسلسل تلفزيوني وفرتها الهيئة السعودية للإذاعة والتلفزيون باللغة العربية بمختلف اللهجات المحلية، وفرغها المركز الوطني للذكاء الاصطناعي في سدايا وجهزها للتدريب والمعالجة الآلية مع تحديد ۲٠ ساعة للاختبار والتحقق.
تمكن هذه البيانات المجتمع البحثي والأكاديمي من تطوير نماذج ذكاء اصطناعي صوتية مختلفة مثل نماذج التعرف الآلي على الكلام، ونطق النصوص، وفصل المتحدثين، وتحديد لهجة أو جنس أو عمر المتحدث وغيرها.
إن نشر هذه البيانات هو إيماناً بأهمية إثراء المحتوى العربي وذلك لأن اللغة العربية لغة القرآن الكريم ويتحدث بها أكثر من ٤٠٠ مليون شخص حول العالم.
Data availability is an important, if not the most important element for developing Artificial Intelligence models. However, open audio data especially in Arabic and its different dialects, is still scarce.
To unlock the value of data and enable the development of advanced AI products, the National Center for Artificial Intelligence at the Saudi Data and Artificial Intelligence Authority (SDAIA), in collaboration with the Saudi Broadcasting Authority (SBA), have published the “SADA” dataset, which stands for “Saudi Audio Dataset for Arabic”.
The published data exceeds 600 hours of Arabic audio recordings in various local Saudi dialects, sourced from more than 57 TV shows provided by the Saudi Broadcasting Authority. The National Center for Artificial Intelligence in SDAIA transcribed the data and prepared it for training and processing, together with providing 20 hours for development and testing.
This data enables the research community to develop AI models for various tasks such as automatic speech recognition, text-to-speech, speaker diarization, and models for dialect, gender and age identification and many others.
Releasing “SADA” stems from the belief in the importance of enriching Arabic content, as Arabic is the language of the Holy Quran and is spoken by more than 400 million people worldwide. ٠
### Supported Tasks and Leaderboards
[More Information Needed]
### Languages
[More Information Needed]
## Dataset Structure
### Data Instances
[More Information Needed]
### Data Fields
[More Information Needed]
### Data Splits
[More Information Needed]
## Dataset Creation
### Curation Rationale
[More Information Needed]
### Source Data
#### Initial Data Collection and Normalization
[More Information Needed]
#### Who are the source language producers?
[More Information Needed]
### Annotations
#### Annotation process
[More Information Needed]
#### Who are the annotators?
[More Information Needed]
### Personal and Sensitive Information
[More Information Needed]
## Considerations for Using the Data
### Social Impact of Dataset
[More Information Needed]
### Discussion of Biases
[More Information Needed]
### Other Known Limitations
[More Information Needed]
## Additional Information
### Dataset Curators
This dataset was shared by [@sdaiancai](https://kaggle.com/sdaiancai)
### Licensing Information
The license for this dataset is cc-by-nc-sa-4.0
### Citation Information
```bibtex
[More Information Needed]
```
### Contributions
[More Information Needed]
提供机构:
khaledalganem
原始信息汇总
数据集概述
数据集名称
- 名称: SADA صدى
- 别名: Saudi Audio Dataset for Arabic
数据集描述
- 描述: 该数据集由沙特数据与人工智能管理局(SDAIA)的国家人工智能中心与沙特广播局(SBA)合作发布,包含约667小时的阿拉伯语音频数据,主要为沙特阿拉伯方言。数据来源于超过57个电视节目,总时长超过600小时,其中20小时用于开发和测试。
- 目的: 用于开发和训练人工智能模型,如自动语音识别、文本转语音、说话人分割和方言、性别、年龄识别等。
数据集结构
- 数据量: 超过600小时的音频数据
- 语言: 阿拉伯语,主要为沙特阿拉伯方言
- 数据分割: 20小时用于测试和验证
数据集创建
- 来源: 沙特广播局提供的电视节目
- 处理: 由国家人工智能中心进行转录和准备
许可证
- 许可证: cc-by-nc-sa-4.0
数据集贡献者
- 贡献者: @sdaiancai
数据集用途
- 应用: 支持多种人工智能任务,包括语音识别、文本转语音、说话人分割等。
社会影响
- 影响: 增强阿拉伯语内容,支持全球超过4亿阿拉伯语使用者。



