Open Scripture Intelligence (OSI)
收藏Open Scripture Intelligence (OSI) 数据集概述
数据集简介
Open Scripture Intelligence (OSI) 是一个将圣经文本从静态文本转化为结构化知识的人工智能就绪数据集和知识图谱。该项目旨在构建一个开源数据集,将圣经作为知识系统而非文本数据库来处理,使其能够被人工智能系统推理。
核心目标
填补现有开源数据集的空白,提供一个结合以下要素的综合数据集:
- 标准化的经文模式
- Markdown 源文本
- 段落分块
- 交叉引用图谱
- 神学元数据(主题、实体)
- 语义嵌入
数据层结构
数据集由多个结构化数据层构成,均基于公共领域的圣经译本构建。
| 数据层 | 格式 | 用途 |
|---|---|---|
| 源数据 | Markdown | 人类可读、版本控制的经文文本 |
| 规范数据 | JSONL | 标准化的节/章/书记录 |
| 分块数据 | JSONL | 用于检索的节、段落和章分块 |
| 图谱数据 | JSONL | 交叉引用边和关系类型 |
| 元数据 | JSON | 主题、实体、人物、地点、主题 |
| 嵌入数据 | JSONL | 用于人工智能搜索和推理的语义向量 |
仓库目录结构
open-scripture-intelligence/ source/ raw-markdown/ # Markdown格式的圣经文本(每章一个文件) canonical/ books.json # 书卷元数据(66卷书) verses.jsonl # 每个节的标准化记录 chapters.jsonl # 章级记录 chunks/ by_verse/ # 单节分块 by_passage/ # 多节段落分块 by_chapter/ # 整章分块 graph/ nodes.jsonl # 经文图谱节点 edges.jsonl # 交叉引用和关系边 metadata/ topics.json # 神学主题分类 entities.json # 人物、地点、概念 embeddings/ verse_embeddings.jsonl passage_embeddings.jsonl scripts/ parse_markdown.py # 将Markdown提取为规范JSONL build_chunks.py # 生成分块层 build_graph.py # 构建交叉引用图谱 exports/ obsidian/ # Obsidian库导出 app/ # 应用就绪导出 training/ # 机器学习训练导出 docs/ architecture.md schema.md roadmap.md
数据模式示例
节记录
json { "id": "web-john-3-16", "translation": "WEB", "book": "John", "chapter": 3, "verse": 16, "reference": "John 3:16", "text": "For God so loved the world, that he gave his only begotten Son, that whoever believes in him should not perish, but have eternal life.", "testament": "NT", "book_number": 43 }
段落分块
json { "id": "web-john-3-16-21", "translation": "WEB", "start_reference": "John 3:16", "end_reference": "John 3:21", "label": "Gods love and salvation", "verse_ids": ["web-john-3-16", "web-john-3-17", "web-john-3-18", "web-john-3-19", "web-john-3-20", "web-john-3-21"], "text": "For God so loved the world..." }
图谱边
json { "from": "web-isaiah-53-5", "to": "web-1peter-2-24", "type": "prophecy_fulfillment", "label": "suffering and healing", "source": "openbible_crossrefs" }
包含的译本
初始版本使用公共领域译本以避免许可限制:
| 译本 | 状态 | 许可 |
|---|---|---|
| WEB (World English Bible) | 主要 | 公共领域 |
| KJV (King James Version) | 支持 | 公共领域 |
| ASV (American Standard Version) | 计划中 | 公共领域 |
应用用例
- 语义圣经搜索 — 按概念而非关键词查找段落
- 相关段落发现 — 呈现主题相关的经文
- 预言映射 — 追溯旧约预言到新约的应验
- 讲道准备 — 在人工智能辅助的背景下探索主题
- 神学研究 — 绘制经文中概念的关系图
- 圣经学习应用 — 为“解释此段落”功能提供支持
- 译本研究 — 语义比较不同译本
- 人工智能助手 — 为圣经聊天机器人提供结构化数据基础
项目路线图
| 阶段 | 重点 |
|---|---|
| 1 | 核心数据集:标准化模式、Markdown源、节记录 |
| 2 | 基于开放数据集的交叉引用图谱 |
| 3 | 语义层:嵌入、主题、实体 |
| 4 | 人工智能接口:搜索API、图谱浏览器 |
许可信息
- 数据集结构和工具:MIT 许可证
- 经文文本:公共领域译本(WEB, KJV, ASV)




