akhooli/quran-simple-text
收藏Hugging Face2024-07-19 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/akhooli/quran-simple-text
下载链接
链接失效反馈官方服务:
资源简介:
该数据集以Waqf许可证发布,包含《古兰经》的文本,既有带变音符号的版本,也有不带变音符号的版本。数据集基于从Tanzil.net下载的文件,包含的列有:章节编号、章节名称、节数、类别(麦加/麦地那)、启示顺序、节编号、节文本(不带变音符号)、带变音符号的节文本。该数据集适用于教育和自然语言处理(NLP)等多种应用,特别强调使用`text`列进行NLP处理。
This dataset is licensed as Waqf and contains the text of the Quran without and with diacritics. It is sourced from Tanzil.net and includes columns such as surah number, surah name, number of ayas, class (Makki/Madani), order of revelation, aya number, aya text (no diacritics), and aya text with diacritics. It is suitable for educational and NLP applications.
提供机构:
akhooli
原始信息汇总
Quran Simple Text Dataset
概述
- 语言: 阿拉伯语
- 许可证: Waqf
- 数据文件:
quran-simple-ak.csv - 分隔符:
|
数据内容
- 列信息:
- 章节编号
- 章节名称
- 节数
- 类别(麦加/麦地那)
- 启示顺序
- 节编号
- 无音标的节文本
- 带音标的节文本
使用说明
-
加载数据集: python from datasets import load_dataset import pandas as pd ds = load_dataset(akhooli/quran-simple-text, split="train", trust_remote_code=True) df = ds.to_pandas() df.head()
-
NLP应用: 使用
text列进行自然语言处理。
相关资源
- Colab Notebook示例: 使用 Arabic-ColBERT-100k 模型的完整示例。



