Christian AI Benchmark (CAB) v2.0

github2026-02-01 更新2026-02-03 收录

下载链接：

https://github.com/goldrockailabs/SoliDeoGloria.ai

下载链接

链接失效反馈

官方服务：

资源简介：

CAB v2.0是一个严格的基准测试，旨在评估AI系统对基督教神学、牧师关怀、伦理和教派多样性的理解和适当参与。与一般宗教知识测试不同，CAB评估了细致的神学推理、牧师敏感性和适当的边界识别。

CAB v2.0 is a stringent benchmark designed to evaluate AI systems' understanding and appropriate engagement with Christian theology, pastoral care, ethics, and denominational diversity. Unlike general religious knowledge assessments, CAB evaluates nuanced theological reasoning, pastoral sensitivity, and appropriate boundary identification.

创建时间：

2026-02-01

原始信息汇总

Christian AI Benchmark (CAB) v2.0 数据集概述

基本信息

数据集名称：Christian AI Benchmark (CAB) v2.0
发布者：Eldest AI LLC dba GoldRock AI
发布机构：Soli Deo Gloria Research Initiative
许可证：CC BY-SA 4.0
引用格式： bibtex @misc{cab2026, title={Christian AI Benchmark (CAB): A Framework for Evaluating AI Alignment with Christian Faith}, author={GoldRock AI}, year={2026}, publisher={Soli Deo Gloria Research Initiative}, url={https://github.com/GoldRockAI/cab-benchmark} }

数据集规模与构成

问题总数：991个
问题特性：100%唯一，无重复
神学维度：10个
宗派传统：10个

核心特性

评估框架：用于评估人工智能系统与基督教信仰的一致性。
评估重点：评估对基督教神学、教牧关怀、伦理和宗派多样性的理解与恰当参与。
评分模式：客观（多项选择）和主观（基于场景）双模式。
科学方法：采用几何平均聚合、LLM评审团和人工验证。

神学维度详情

维度	问题数量	描述
圣经素养	121	圣经知识、释经学、解经
系统神学	123	教义、基督论、救赎论、末世论
教牧关怀	189	咨询场景、悲伤、危机干预
基督教伦理学	110	道德推理、生命伦理学、社会伦理学
教会历史	91	历史知识、运动、人物
崇拜与圣礼	90	礼仪、圣礼神学、崇拜实践
护教学	79	捍卫信仰、回应异议
灵命塑造	77	操练、成长、成圣
宗派认知	61	公平理解其他传统
界限尊重	50	认识AI局限性、进行恰当转介

宗派传统分布

跨传统：480个问题（共享的基督教信仰）
天主教：75个问题
东正教：68个问题
改革宗：61个问题
路德宗：57个问题
浸信会：53个问题
卫理公会：51个问题
五旬节派：50个问题
福音派：49个问题
圣公会：47个问题

评分方法

客观问题（75个）

多项选择，答案位置随机。
二元评分（正确/错误）。
防止模式利用。

主观问题（916个）

基于场景，需要细致入微的回答。
由3个LLM评审员进行评估。
采用1-5李克特量表，附有行为锚点。
使用中位数分数以保证稳健性。

分数聚合

跨维度使用几何平均数，防止分数补偿。
模型无法通过在其他方面表现出色来掩盖弱点。
各维度分数权重相等。

数据集结构

数据采用JSON格式，关键字段包括：

id：唯一标识符（如"CAB-0001"）。
scoring_mode：评分模式（"objective"或"subjective"）。
dimension：所属神学维度。
tradition：所属宗派传统。
difficulty：难度等级（"L1"、"L2"或"L3"）。
question：客观问题题干。
options：客观问题选项列表。
correct_answer：客观问题正确答案。
scenario：主观问题场景描述。
rubric_focus：主观问题评分要点。

使用方式

可通过提供的Python包cab_benchmark进行评估，主要步骤包括克隆仓库、安装依赖并运行评估脚本。

结果格式

评估结果以JSON格式输出，包含模型名称、时间戳、总体分数、各维度分数、各传统分数以及详细结果列表。

搜集汇总

数据集介绍

构建方式

在宗教与人工智能交叉研究领域，构建一个能够系统评估AI系统对基督教信仰理解深度的基准数据集，需要严谨的方法论支撑。Christian AI Benchmark (CAB) v2.0的构建采用了科学化的设计流程，其核心在于通过十个明确的神学维度与十个宗派传统，精心编制了991个独特问题。数据集包含客观选择题与主观情景题两种评分模式，其中主观部分由大型语言模型组成的评审小组依据行为锚定量表进行评估，并辅以人工验证，最终采用几何平均数进行聚合，确保了评估的全面性与鲁棒性。

特点

该数据集的特点体现在其系统性与精细化的结构设计上。它不仅涵盖了从圣经素养、系统神学到教牧关怀、基督教伦理等十个关键神学维度，还公平地代表了包括天主教、东正教、改革宗等在内的十个主要基督教传统，并特别设置了跨宗派的共享信念问题。数据集包含991个无重复的独特问题，并创新性地融合了客观的多项选择与主观的情景应答两种评估模式，旨在深度检验AI在神学推理、牧养敏感度以及识别自身能力边界等方面的综合表现。

使用方法

对于希望利用该数据集进行模型评估的研究者，其使用方法清晰而高效。用户可通过克隆项目仓库并安装依赖后，使用提供的评估脚本对目标模型进行测试。数据集以结构化的JSON格式组织，每个条目均标注了评分模式、所属维度、宗派传统及难度等级。评估过程支持自定义评审模型，并输出包含整体分数、各维度得分、各传统得分及详细结果的综合报告，为分析模型在基督教信仰对齐方面的能力提供了标准化的量化依据。

背景与挑战

背景概述

在人工智能伦理与价值观对齐研究日益深入的背景下，Christian AI Benchmark (CAB) v2.0 由 GoldRock AI 于2026年作为 Soli Deo Gloria 研究计划的一部分正式发布。该数据集旨在系统评估人工智能系统在基督教神学理解、伦理推理、牧灵关怀及宗派传统认知等方面的对齐程度，超越了传统宗教知识测试的范畴。其核心研究问题聚焦于如何量化AI对复杂神学概念与跨宗派情境的细微把握能力，为促进AI在多元宗教语境中的负责任发展提供了首个综合性评估框架，对宗教计算与AI伦理交叉领域产生了显著的学术影响力。

当前挑战

该数据集致力于解决人工智能在宗教与神学领域应用中的核心挑战，即如何准确评估AI对非结构化、高度情境化且富含价值判断的宗教内容的理解与回应适宜性。构建过程中的主要挑战包括：确保991个问题在10个神学维度和10个宗派传统间具有均衡的代表性与无偏性；设计兼具客观选择题与主观情景题的双重评分模式，以同时衡量知识准确性与推理深度；建立由LLM评审团与人工验证结合的稳健评估机制，以保障评分在复杂主观判断中的一致性与可靠性。

常用场景

经典使用场景

在宗教人工智能领域，Christian AI Benchmark (CAB) v2.0 作为一项权威评估工具，其经典使用场景集中于对大型语言模型在基督教神学理解与交互能力上的系统性评测。研究者通过该数据集，能够深入探究模型在圣经诠释、教义辨析、伦理判断及牧灵关怀等复杂情境中的表现，从而揭示人工智能在宗教语境下的认知边界与适应性。

衍生相关工作

围绕CAB v2.0 衍生的经典工作包括基于其多维评估框架的对比性研究，如分析不同架构语言模型在系统神学与牧灵关怀维度上的性能差异。此外，该数据集亦催生了针对宗教语境下AI对齐问题的专项探讨，以及跨宗派适应性微调方法的创新，这些研究进一步丰富了宗教人工智能的技术路径与理论内涵。

数据集最近研究