cite-bench v1

github2026-04-10 更新2026-04-17 收录

下载链接：

https://github.com/LawEngine/cite-bench

下载链接

链接失效反馈

官方服务：

资源简介：

`cite-bench` 是一个用于法律引用验证的公共基准数据集。给定一个引用和一个引用的段落，模型必须将这对分类为四个标签之一：`VERIFIED`（引用属于被引用的条款）、`NOT_FOUND`（引用是真实的但引用的内容是伪造或修改的）、`MISATTRIBUTED`（引用的内容是真实的法律文本但来自不同的条款）、`CITATION_UNRESOLVED`（引用本身格式错误或不存在）。

`cite-bench` is a public benchmark dataset for legal citation validation. Given a citation and a cited passage, models must classify the pair into one of four labels: `VERIFIED` (the citation refers to the cited clause), `NOT_FOUND` (the citation is genuine but the cited content is forged or modified), `MISATTRIBUTED` (the cited content is authentic legal text but originates from a different clause), and `CITATION_UNRESOLVED` (the citation itself is malformed or non-existent).

创建时间：

2026-04-07

原始信息汇总

cite-bench v1 数据集概述

数据集基本信息

数据集名称: cite-bench v1
数据集用途: 法律引用验证的公共基准测试
核心任务: 给定一个引用和一段引文，模型必须将这对信息分类为四个标签之一。

任务与标签定义

模型需对引用和引文对进行四分类：

VERIFIED — 引文属于被引用的条款。
NOT_FOUND — 引用是真实的，但引文是捏造或篡改的。
MISATTRIBUTED — 引文是真实的法律文本，但来自不同的条款。
CITATION_UNRESOLVED — 引用本身格式错误或不存在。

数据集内容与结构

公共仓库包含内容

公共基准测试输入包。
空白提交模板。
示例提示词。
可生成 id,predicted_status CSV 格式提交结果的公共运行器。

公共仓库不包含内容

私有评分密钥。
隐藏的评估或保留数据包。
本地评分代码。
后端上传或评分服务。

数据集合约

公共数据集行仅包含以下字段：

id
citation
quote 公共数据包故意不包含私有评分元数据，例如 expected_status 或内部来源提示。

关键文件

data/cite-bench-v1.json
data/submission_template.csv
prompts/system_prompt.md
prompts/user_prompt.md
scripts/run_openai.py

输出与提交规范

输出合约

提交的CSV文件使用以下模式： csv id,predicted_status

predicted_status 必须恰好是以下之一：

VERIFIED
NOT_FOUND
MISATTRIBUTED
CITATION_UNRESOLVED

公共提示词基线

跟踪的提示词对为：

prompts/system_prompt.md
prompts/user_prompt.md 这些是公共基线提示词，而非私有最高性能提示词。

评分边界

官方评分逻辑故意未包含在此公共仓库中。此公共仓库用于：

下载公共数据包。
运行模型。
生成有效的提交CSV。私有评分密钥和后端上传/评分逻辑位于此仓库之外。

许可信息

此仓库中的软件源代码根据 Apache-2.0 许可证授权。
基准测试数据集、提示词文件和面向基准测试的文档根据 CC BY 4.0 许可证授权。

搜集汇总

数据集介绍

构建方式

在法学信息处理领域，构建高质量的数据集对于推动法律文本智能分析至关重要。cite-bench v1 数据集的构建聚焦于法律引文验证任务，其核心设计围绕引文与引用段落之间的关联性展开。该数据集通过精心筛选真实法律条文中的引文与引用段落，并人工标注了四种分类标签，包括已验证、未找到、错误归属及引文无法解析。构建过程中，数据来源严格遵循法律文本的权威性，确保了引文与引用内容的准确对应，同时通过排除私有评分元数据，保持了数据集的公开透明性，为后续模型评估提供了可靠的基础。

使用方法

使用 cite-bench v1 数据集进行法律引文验证研究时，用户需遵循一套清晰的流程。首先，通过克隆仓库并设置虚拟环境来获取数据集及相关代码，确保依赖项的正确安装。接着，利用提供的运行脚本，如 `run_openai.py`，结合公开的提示词文件，对模型进行配置与测试，生成预测结果。输出需严格按照指定的 CSV 格式，包含标识符和预测状态，且状态必须为四种预设标签之一。数据集的使用强调公开部分的基准测试，用户可调整模型参数以优化性能，但官方评分逻辑保留在私有后端，确保了评估的独立性与严谨性。

背景与挑战

背景概述

随着人工智能技术在法律领域的深入应用，法律文本的自动验证成为一项关键研究课题。cite-bench v1数据集由LawEngine机构创建，旨在为法律引文验证提供一个公开的基准测试平台。该数据集聚焦于核心研究问题：如何准确判断法律引文与引用段落之间的对应关系，涵盖已验证、未找到、错误归属及引文无法解析四种分类。其推出不仅推动了法律自然语言处理技术的发展，也为构建可靠的法律人工智能系统奠定了重要基础，对提升法律文档处理的自动化水平具有显著影响力。

当前挑战

在法律引文验证领域，主要挑战在于处理法律文本的复杂性和多样性，包括法律条款的细微语义差异、引文格式的异构性以及跨法域的法律术语不一致性。构建cite-bench v1数据集过程中，研究人员面临数据标注的高精度要求，需要法律专家深度参与以确保标签的准确性；同时，平衡数据集的代表性与规模也是一大难题，需涵盖广泛的法律条文和案例以反映真实应用场景。这些挑战共同构成了该数据集在推动法律人工智能进步道路上的关键障碍。

常用场景

经典使用场景

在法律信息检索与验证领域，cite-bench v1数据集为法律引文验证任务提供了一个标准化的评估框架。该数据集通过呈现引文与引用段落之间的配对，要求模型对配对关系进行四分类判别，涵盖了从正确验证到引文无效等多种场景。这一设计使得研究者能够系统地评估模型在法律文本理解与引证准确性方面的性能，为法律人工智能的发展奠定了实证基础。

解决学术问题

该数据集主要解决了法律自然语言处理中引文验证的学术挑战，包括自动检测引文与引用内容的一致性、识别伪造或篡改的法律文本，以及处理引文格式错误等问题。通过提供结构化的评估数据，cite-bench v1促进了法律文本理解模型的精度与鲁棒性研究，有助于推动法律信息自动化处理技术的进步，并为法律领域的可信人工智能应用提供了关键支撑。

实际应用

在实际应用中，cite-bench v1数据集可被用于开发法律文档自动化审核工具，辅助律师和法务人员快速验证案例引用的准确性，提升法律研究的效率。同时，该数据集也能支持司法系统中的智能辅助决策，例如在案件审查或法律文书生成过程中，确保引证内容的真实性与合规性，从而增强法律服务的可靠性与透明度。

数据集最近研究