Prophetic Sustainability Corpus

github2025-10-17 更新2025-10-18 收录

下载链接：

https://github.com/NoorBayan/SeerahAtlas

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个首创的结构化、机器可读数据集，包含数百条先知传统，在可持续性的三个支柱（环境、健康和社会）上进行了语义标注。每个条目包含：原始圣训文本（阿拉伯语和英语翻译）、来源和真实性等级、主要领域（环境、健康或社会）、子类别（例如水资源保护、饮食习惯、邻居权利）、关键词和概念、时间背景（如适用）。

This is a pioneering structured, machine-readable dataset containing hundreds of prophetic hadiths, with semantic annotations across the three pillars of sustainability: environmental, health, and social. Each entry includes: the original hadith text (Arabic and its English translation), source and authenticity rating, primary domain (environmental, health, or social), subcategories (e.g., "water resource conservation", "dietary habits", "rights of neighbors"), keywords and concepts, and temporal context (where applicable).

创建时间：

2025-10-17

原始信息汇总

SeerahAtlas: The Prophetic Sustainability Atlas 数据集概述

项目简介

SeerahAtlas是一个数字人文项目，旨在分析先知指导（圣训）中可持续发展综合体系。该项目通过创建统一的数据驱动框架，解决伊斯兰文本中可持续发展相关教义的"知识碎片化"问题，应用计算方法将分散的圣训转化为可探索的整体环境、健康和社会福祉模型。

主要特点

先知可持续发展语料库：首个结构化、机器可读的数据集，包含数百条先知传统，在可持续发展的三大支柱（环境、健康和社会）上进行语义标注
AI驱动的主题分析：使用主题建模（LDA）识别先知可持续发展论述中的核心主题和优先事项
概念网络分析：构建知识图谱，映射关键概念之间的关系，揭示将不同可持续发展领域整合为单一连贯系统的"桥梁价值"
交互式知识图谱：基于Web的平台，可视化项目发现，允许用户探索数据、分析趋势并理解先知模型的整体性

数据集详情

数据格式：CSV/JSON
核心数据文件：prophetic_sustainability_corpus.csv
存储位置：/data目录

数据内容

语料库中的每个条目包含：

圣训原文（阿拉伯语和英语翻译）
来源和真实性等级
主要领域：环境、健康或社会
子类别（如水资源保护、饮食习惯、邻居权利）
关键词和概念：带注释的语义标签列表
时间背景：麦加时期或麦地那时期（如适用）

技术栈

数据处理与分析：Python（Pandas、NLTK、Scikit-learn）
主题建模：Gensim
网络分析：NetworkX
交互式可视化：D3.js、Plotly
开发环境：Jupyter Notebooks

许可证

MIT许可证

项目链接

https://github.com/NoorBayan/SeerahAtlas

搜集汇总

数据集介绍

构建方式

在数字人文研究领域，构建高质量语料库是支撑计算分析的基础。Prophetic Sustainability Corpus的构建过程体现了严谨的文献学方法，研究团队从散落的圣训文献中系统收集了数百条涉及可持续性主题的原始文本。每条记录均经过专业学者的精细标注，不仅包含阿拉伯语原文与英语译文，还标注了文献来源、真实性等级、所属领域（环境、健康、社会三大支柱）及具体子类别。这种多维度标注体系为后续的量化分析奠定了坚实基础，同时保留了文本的原始语境与历史脉络。

特点

该数据集在伊斯兰研究与可持续性科学的交叉领域具有开创性价值。其核心特征体现在结构化与语义化两个维度：每条数据均配备关键词概念标签和时空背景信息，形成了机器可读的标准化格式。数据集特别突出了先知教导中环境伦理、公共卫生与社会正义的内在关联，通过主题建模揭示出'适度'、'纯洁'等核心概念在三大领域中的桥梁作用。这种设计使得隐性知识脉络得以显性化，为理解伊斯兰传统中的整体性可持续观提供了数据支撑。

使用方法

研究者可通过克隆项目仓库快速获取该数据集，配套的Jupyter笔记本提供了完整的分析流程指引。使用过程始于数据探索阶段，通过加载CSV文件了解标注体系与数据分布；继而可运行主题建模笔记本，利用LDA算法自动识别文本中的潜在主题结构；最后通过概念网络分析笔记本构建知识图谱，直观展示可持续性概念间的拓扑关系。整个分析链条依托Python生态中的Pandas、Gensim等工具库实现，可视化组件则支持交互式探索，满足不同层次的研究需求。

背景与挑战

背景概述

作为数字人文领域的前沿探索，Prophetic Sustainability Corpus由研究团队于当代创建，旨在整合伊斯兰经典中分散的可持续性教义。该项目通过计算语言学方法构建结构化语料库，系统标注圣训文本在环境、健康与社会三大维度的语义信息，核心在于破解传统宗教文献的知识碎片化困境，为跨学科研究提供数据驱动的分析框架，推动古典智慧与现代可持续性科学的对话。

当前挑战

该数据集致力于解决伊斯兰可持续性教义的系统化建模难题，其核心挑战在于如何从非结构化的古典文献中精准提取跨领域关联概念。在构建过程中面临双重考验：既要保证圣训文本语义标注的宗教学准确性，又需克服阿拉伯语自然语言处理中的词法复杂性；同时，手工构建多维度标签体系时，需平衡领域专家标注一致性与计算模型可扩展性之间的张力。

常用场景

经典使用场景

在数字人文与伊斯兰研究交叉领域，该数据集通过自然语言处理技术对先知训诫进行结构化分析，构建了涵盖环境、健康与社会三大维度的可持续性知识图谱。研究者可借助主题建模探索训诫文本的潜在语义结构，利用网络分析揭示核心概念间的关联模式，为传统宗教文本研究提供数据驱动的探索范式。

解决学术问题

该数据集有效解决了伊斯兰经典文献中可持续性知识碎片化的问题，通过计算语言学方法将分散的训诫文本整合为系统化框架。其语义标注体系突破了传统文献研究的定性局限，使研究者能定量分析不同时期可持续性理念的演变轨迹，为宗教伦理与当代可持续发展目标的对齐研究提供实证基础。

衍生相关工作

基于该数据集衍生的经典研究包括采用潜在狄利克雷分布的主题建模探索可持续性优先议题，运用网络中心性分析识别知识图谱中的桥接概念。这些工作推动了计算宗教学方法论的发展，并为传统训诂学与数字人文的跨学科融合树立了典范。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集