five

Open Scripture Intelligence (OSI)

收藏
github2026-03-14 更新2026-03-28 收录
下载链接:
https://github.com/echology-io/open-scripture-intelligence
下载链接
链接失效反馈
官方服务:
资源简介:
一个结构化的多层数据集,构建自公共领域的圣经翻译。它包括人类可读的Markdown源文本、规范化的经文/章节/书籍记录、经文和段落块、交叉引用图、神学元数据(主题、实体)以及用于AI搜索和推理的语义嵌入。

A structured multi-layered dataset constructed from public-domain Bible translations. It includes human-readable Markdown source texts, normalized scripture/chapter/book records, verse and paragraph blocks, cross-reference graphs, theological metadata (topics and entities), as well as semantic embeddings for AI search and reasoning.
创建时间:
2026-03-08
原始信息汇总

Open Scripture Intelligence (OSI) 数据集概述

数据集简介

Open Scripture Intelligence (OSI) 是一个将圣经文本从静态文本转化为结构化知识的人工智能就绪数据集和知识图谱。该项目旨在构建一个开源数据集,将圣经作为知识系统而非文本数据库来处理,使其能够被人工智能系统推理。

核心目标

填补现有开源数据集的空白,提供一个结合以下要素的综合数据集:

  • 标准化的经文模式
  • Markdown 源文本
  • 段落分块
  • 交叉引用图谱
  • 神学元数据(主题、实体)
  • 语义嵌入

数据层结构

数据集由多个结构化数据层构成,均基于公共领域的圣经译本构建。

数据层 格式 用途
源数据 Markdown 人类可读、版本控制的经文文本
规范数据 JSONL 标准化的节/章/书记录
分块数据 JSONL 用于检索的节、段落和章分块
图谱数据 JSONL 交叉引用边和关系类型
元数据 JSON 主题、实体、人物、地点、主题
嵌入数据 JSONL 用于人工智能搜索和推理的语义向量

仓库目录结构

open-scripture-intelligence/ source/ raw-markdown/ # Markdown格式的圣经文本(每章一个文件) canonical/ books.json # 书卷元数据(66卷书) verses.jsonl # 每个节的标准化记录 chapters.jsonl # 章级记录 chunks/ by_verse/ # 单节分块 by_passage/ # 多节段落分块 by_chapter/ # 整章分块 graph/ nodes.jsonl # 经文图谱节点 edges.jsonl # 交叉引用和关系边 metadata/ topics.json # 神学主题分类 entities.json # 人物、地点、概念 embeddings/ verse_embeddings.jsonl passage_embeddings.jsonl scripts/ parse_markdown.py # 将Markdown提取为规范JSONL build_chunks.py # 生成分块层 build_graph.py # 构建交叉引用图谱 exports/ obsidian/ # Obsidian库导出 app/ # 应用就绪导出 training/ # 机器学习训练导出 docs/ architecture.md schema.md roadmap.md

数据模式示例

节记录

json { "id": "web-john-3-16", "translation": "WEB", "book": "John", "chapter": 3, "verse": 16, "reference": "John 3:16", "text": "For God so loved the world, that he gave his only begotten Son, that whoever believes in him should not perish, but have eternal life.", "testament": "NT", "book_number": 43 }

段落分块

json { "id": "web-john-3-16-21", "translation": "WEB", "start_reference": "John 3:16", "end_reference": "John 3:21", "label": "Gods love and salvation", "verse_ids": ["web-john-3-16", "web-john-3-17", "web-john-3-18", "web-john-3-19", "web-john-3-20", "web-john-3-21"], "text": "For God so loved the world..." }

图谱边

json { "from": "web-isaiah-53-5", "to": "web-1peter-2-24", "type": "prophecy_fulfillment", "label": "suffering and healing", "source": "openbible_crossrefs" }

包含的译本

初始版本使用公共领域译本以避免许可限制:

译本 状态 许可
WEB (World English Bible) 主要 公共领域
KJV (King James Version) 支持 公共领域
ASV (American Standard Version) 计划中 公共领域

应用用例

  • 语义圣经搜索 — 按概念而非关键词查找段落
  • 相关段落发现 — 呈现主题相关的经文
  • 预言映射 — 追溯旧约预言到新约的应验
  • 讲道准备 — 在人工智能辅助的背景下探索主题
  • 神学研究 — 绘制经文中概念的关系图
  • 圣经学习应用 — 为“解释此段落”功能提供支持
  • 译本研究 — 语义比较不同译本
  • 人工智能助手 — 为圣经聊天机器人提供结构化数据基础

项目路线图

阶段 重点
1 核心数据集:标准化模式、Markdown源、节记录
2 基于开放数据集的交叉引用图谱
3 语义层:嵌入、主题、实体
4 人工智能接口:搜索API、图谱浏览器

许可信息

  • 数据集结构和工具:MIT 许可证
  • 经文文本:公共领域译本(WEB, KJV, ASV)
搜集汇总
数据集介绍
main_image_url
构建方式
在圣经研究领域,将经典文本转化为结构化知识体系是一项复杂而精细的工作。Open Scripture Intelligence数据集采用多层架构构建,以公共领域的圣经译本为基础,通过系统化流程将原始文本转化为机器可理解的知识图谱。构建过程始于Markdown格式的源文本,每个章节独立成文件,随后通过解析脚本生成规范化的经文记录,形成标准化的JSONL数据层。在此基础上,系统进一步生成经文片段、构建交叉引用图谱,并融入神学元数据与语义嵌入向量,最终形成涵盖文本、结构、关系与语义的多维数据集。
使用方法
对于希望集成圣经智能的开发者而言,该数据集提供了清晰的接入路径。用户首先克隆代码仓库并安装依赖,随后运行系列脚本将Markdown源数据依次解析为规范化记录、文本块和关系图谱。生成的结构化数据可作为独立的知识层,被导入到关系型数据库、图数据库或向量数据库中以供后端调用。应用程序可通过自有API层访问这些数据,从而赋能语义搜索、关联经文发现、主题探索等高级功能,使传统应用在不改变前端交互的前提下获得深度的内容理解与推理能力。
背景与挑战
背景概述
在数字人文与计算神学领域,将经典文本转化为结构化知识体系已成为前沿研究方向。Open Scripture Intelligence (OSI) 数据集应运而生,旨在突破传统圣经应用仅将经文视为文本数据库的局限。该项目由 Echology 机构主导,核心研究问题聚焦于如何将静态的圣经文本转化为人工智能可推理的多层结构化知识系统,涵盖规范化经文模式、交叉引用图谱、神学元数据及语义嵌入等多个维度。通过整合公共领域译本,OSI 为语义搜索、预言映射、神学研究等应用提供了底层智能支持,推动了宗教文本在人工智能时代的可计算性发展。
当前挑战
OSI 数据集致力于解决圣经知识系统中语义理解与关联挖掘的挑战,传统应用多依赖关键词匹配,难以实现基于概念的深度检索与跨章节主题关联。在构建过程中,项目面临多重技术难题:一是经文结构的规范化处理,需统一不同译本的书卷、章节与节次格式;二是交叉引用图谱的构建,依赖开放数据源且需准确界定预言应验、主题关联等复杂关系类型;三是神学元数据的标注,涉及人物、地点、概念等实体的标准化分类,要求领域专业知识以确保一致性。此外,为平衡版权限制与数据可用性,数据集初期仅能采用公共领域译本,这在一定程度上限制了译本的多样性与现代性。
常用场景
经典使用场景
在数字神学与计算宗教学领域,Open Scripture Intelligence(OSI)数据集为圣经文本的智能化分析提供了结构化基础。其经典使用场景体现在语义圣经搜索中,研究者能够超越传统关键词匹配,通过概念嵌入与知识图谱,精准定位主题相关的经文段落。例如,在探讨“救赎”主题时,系统可自动关联旧约预言与新约实现,呈现跨文本的语义网络,极大提升了经文研究的深度与效率。
解决学术问题
OSI数据集有效解决了圣经研究中长期存在的文本碎片化与关联性缺失问题。通过整合规范化经文模式、交叉引用图谱及神学元数据,该数据集使得学者能够系统化分析主题演变、预言实现路径及概念跨文本传播。这不仅促进了计算语言学在宗教文本中的应用,还为神学论证提供了数据驱动的实证基础,推动了宗教学与人工智能的交叉学科发展。
实际应用
在实际应用层面,OSI数据集为圣经学习应用、讲道准备工具及智能助理系统提供了核心智能层。例如,在讲道准备中,牧师可通过语义检索快速发现相关经文,并利用图谱可视化展示主题关联;在教育领域,该数据集支持开发交互式学习平台,帮助学生理解经文间的复杂联系。这些应用不仅提升了用户体验,也使得圣经知识在数字时代得以更广泛、精准地传播。
数据集最近研究
最新研究方向
在宗教文本计算分析领域,Open Scripture Intelligence(OSI)数据集正推动前沿研究聚焦于结构化知识图谱与语义嵌入的深度融合。该数据集将圣经从静态文本转化为多层智能结构,为人工智能系统提供了可推理的语义基础,促进了跨学科探索。当前热点集中于利用其图神经网络与向量化表示,实现预言映射、主题关联发现及跨翻译语义比较,这些方向不仅革新了传统圣经研究方法,也为自然语言处理在复杂文档理解中的应用树立了新范式,对神学数字化与文化遗产计算保存具有深远意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作