contract-review

github2026-02-23 更新2026-02-25 收录

下载链接：

https://github.com/TribeAI/claude-evals

下载链接

链接失效反馈

官方服务：

资源简介：

参考数据集涵盖了合同审查/文档智能——最常见的企业AI用例。它包括50个测试用例，分为5个类别，基于10个真实的源合同构建。类别包括条款提取、单条款审查、多条款推理、风险分类和缺失条款检测。源合同包括相互和单向NDA、企业和初创公司SaaS协议、专业服务协议、雇佣合同、复杂的MSA和软件许可证。每个合同包含800-2,000字的真实但原创的法律文本。

This reference dataset covers contract review/document intelligence, one of the most common enterprise AI use cases. It comprises 50 test cases divided into 5 categories, constructed based on 10 real-world source contracts. The categories include clause extraction, single-clause review, multi-clause reasoning, risk classification, and missing clause detection. The source contracts cover mutual and unilateral NDAs, enterprise and startup SaaS agreements, professional services agreements, employment contracts, complex MSAs, and software licenses. Each contract contains authentic yet original legal text ranging from 800 to 2,000 words.

创建时间：

2026-02-23

原始信息汇总

claude-evals 数据集概述

数据集基本信息

数据集名称: claude-evals
主要用途: 专为 Claude Agent SDK 工作流设计的原生评估工具套件。
核心目标: 解决企业团队在构建 Claude 驱动工作流时面临的模型升级影响评估与成本效益模型选择问题。
开发者: Tribe AI

数据集核心特点

原生集成: 深度集成 Claude Agent SDK，可钩入 PreToolUse、PostToolUse 和 SubagentStop 生命周期事件。
评估维度: 专注于评估智能体行为，包括工具选择、多步骤任务完成、上下文保留和成本效率。
内置黄金数据集: 包含一个用于合同审查/文档智能的真实校准测试集。
方法论: 实现了 Anthropic 发布的评估模式，包括确定性评分器、LLM 作为评判员以及人工审核队列。

黄金数据集详情

领域: 合同审查 / 文档智能。
规模: 50 个测试用例。
来源: 基于 10 份真实的源合同构建。
合同特征: 每份合同为 800-2,000 词的原创法律文本，内容真实。
合同类型: 包括相互和单向保密协议、企业和初创公司 SaaS 协议、专业服务协议、雇佣合同、复杂的 MSA 以及软件许可证。

测试用例分类

类别	用例数量	评分器类型	测试内容
条款提取	20	确定性	查找并逐字提取特定条款
单项审查	15	LLM 评判员	回答关于合同条款的解释性问题
多条款推理	10	LLM 评判员	综合多个章节的信息
风险分类	5	确定性	将条款分类为标准/升高/高风险
缺失条款检测	5	确定性	识别哪些标准条款缺失

数据集扩展与验证

扩展方法: 通过在 datasets/contract-review/cases/ 目录下创建 JSON 文件来添加自定义测试用例。
验证命令: claude-evals validate-dataset --dataset datasets/contract-review

评分器类型

确定性评分器
- 适用场景: 正确答案可通过编程方式验证时使用。
- 类型: 包括精确匹配、包含、条款存在性、分类、条款列表匹配、JSON 字段匹配、正则表达式匹配、不包含。
LLM 评判员
- 适用场景: 用于确定性检查无法捕捉质量的主观性任务。
- 实现: 使用 Claude Sonnet 作为评判员，采用带加权标准的结构化评分标准、基于参考的评分以及方差减少技术。
人工审核队列
- 功能: 当 LLM 评判员评分模糊或方差较高时，将不确定的案例导出为 JSONL 格式以供人工审核。

工具功能与集成

CI/CD 集成: 提供 GitHub Actions 工作流示例，支持自动化评估和回归检查。
回归检测: 比较两次评估运行的结果，并根据回归严重程度（严重、高、中、低）提供部署建议。
成本护栏: 每个任务设有 max_budget_usd 上限（默认 0.50 美元），防止评估运行期间成本失控。
退出代码:
- 0: 所有任务通过（或未发现回归）。
- 1: 部分任务失败（或发现高/严重级别回归）。
- 2: 套件错误（智能体崩溃、API 错误、预算超支）。
- 3: 数据集验证错误。

限制说明

非实时监控: 此为离线评估工具，非生产环境可观测性工具。
无法检测隐蔽故障: 无法发现未在测试输出中显现的缺陷。
模型专一性: 该工具套件专为 Claude Agent SDK 构建，不支持非 Claude 模型。
非实时告警: 用于 CI 环境，而非作为监控守护进程。

许可证

Apache 2.0 许可证。

搜集汇总

数据集介绍

构建方式

在合同审查与文档智能领域，构建高质量评估数据集对于衡量AI代理性能至关重要。contract-review数据集通过精心设计的流程构建而成，其核心包括从十份真实但原创的法律合同中提取内容，涵盖相互与非相互保密协议、企业级与初创型SaaS协议、专业服务协议、雇佣合同、复杂主服务协议以及软件许可协议等多种类型。每份合同文本长度介于800至2000词之间，确保了数据的多样性与现实代表性。在此基础上，数据集构建者依据实际应用场景，将测试案例划分为条款提取、单项条款审查、多条款推理、风险分类以及缺失条款检测五大类别，并针对每类任务配置了相应的评估器，如确定性评估器或LLM评估器，从而形成了一套包含50个校准测试案例的黄金数据集。

使用方法

为有效利用该数据集进行模型评估与比较，用户可通过命令行界面或Python API两种主要方式操作。通过简单的pip安装并设置API密钥后，用户可运行完整的评估套件，或针对特定任务类别进行测试。数据集支持模型性能的回归检测，能够对比基线版本与候选版本的运行结果，并依据性能衰退的严重程度提供部署建议。在持续集成流程中，用户可将评估命令集成至GitHub Actions工作流，实现自动化测试与质量门控。对于扩展性需求，用户只需遵循既定格式在指定目录下创建新的测试案例文件，并利用验证命令确保数据结构的正确性，从而灵活地将数据集适配于特定的合同审查场景。

背景与挑战

背景概述

在人工智能代理技术快速发展的背景下，企业级应用面临模型性能评估标准化的迫切需求。Tribe AI机构于2024年推出的contract-review数据集，聚焦于法律合同智能审查这一核心应用场景，旨在构建针对Claude Agent SDK工作流的专业化评估体系。该数据集包含源自十类真实商业合同的五十个测试案例，涵盖条款提取、风险分类等五大任务维度，其创新性在于深度融合了Anthropic公司发布的智能体评估方法论，通过确定性评分与LLM评判相结合的混合评估机制，为法律文档分析领域的模型性能基准测试提供了标准化范本。

当前挑战

该数据集面临的核心挑战体现在双重维度：在领域问题层面，法律合同审查需要精确处理专业术语的语义理解、跨条款逻辑推理、以及风险等级的细粒度划分，这对模型的领域知识迁移能力和复杂推理能力提出极高要求；在构建过程中，挑战主要集中于如何设计既能反映真实业务场景又具备可扩展性的测试案例，同时需要平衡确定性评分与主观评判的评估标准，并确保不同难度层级的案例能够有效区分模型能力的边界。

常用场景

经典使用场景

在智能法律文档分析领域，contract-review数据集为评估AI代理在合同审查任务中的表现提供了标准化基准。该数据集包含50个精心设计的测试案例，涵盖条款提取、单条款审查、多条款推理、风险分类和缺失条款检测五大类别，这些案例基于10份真实场景下的法律合同构建，每份合同包含800-2000字的原创法律文本。研究人员通过该数据集能够系统评估AI模型在理解复杂法律语言、识别关键条款以及进行多步骤法律推理方面的能力，为法律智能化研究提供了可重复验证的实验环境。

解决学术问题

该数据集有效解决了法律人工智能领域长期存在的评估标准化难题。传统法律AI研究往往依赖特定案例或有限数据，缺乏系统化的评估框架，导致研究成果难以横向比较。contract-review通过提供结构化的测试套件，使研究者能够量化评估模型在法律文本理解、条款提取准确度、风险识别精度等核心指标上的表现。其采用的确定性评分和LLM法官双重评估机制，既保证了客观任务的精确度量，又为需要主观判断的任务提供了可靠的质量评估方法，显著提升了法律AI研究的科学性和可复现性。

实际应用

在企业法律工作流程自动化实践中，该数据集成为确保AI代理稳定性的关键工具。法律科技公司利用该套件持续监控模型升级对合同审查质量的影响，通过回归检测机制及时发现性能退化问题。在成本控制方面，企业能够基于数据集评估不同模型版本在保持审查准确性的前提下实现成本优化。实际部署中，该评估框架已集成到CI/CD流程，每当模型更新或系统迭代时自动运行测试套件，确保生产环境中的法律AI代理始终保持预期的性能水准，大幅降低了因模型变更导致的法律风险。

数据集最近研究