ReCaRe

Hugging Face2026-05-03 更新2026-05-04 收录

下载链接：

https://huggingface.co/datasets/kasys/ReCaRe

下载链接

链接失效反馈

官方服务：

资源简介：

ReCaRe（发音为re-care）是一个双语法律基准数据集，专注于修订候选检索（RCR）任务，即定位法律文本中构成权威修订可能候选的条款。该数据集涵盖欧盟法律（EUR-Lex，英文）和日本法律（e-Gov，日文），包含703个修订事件和约181,000篇文章，支持在双语语料库上的两种检索任务（Rat2Rev和Rev2Rev）。数据集由专家团队策划，语言为英语和日语，采用CC BY 4.0（欧盟子集）和CC BY 4.0/CC0 1.0（日本子集）许可。数据集结构包含12种配置，共享两个语言对齐的语料库，包括语料库、查询和相关度标签等组件。数据集旨在作为研究基准，用于训练和评估法律文本检索模型，特别适用于查询和目标文档在长度和语域上显著不同的场景。

ReCaRe (pronounced re-care) is a bilingual legal benchmark dataset focused on the Revision Candidate Retrieval (RCR) task, which involves locating provisions in legal texts that constitute potential candidates for authoritative revisions. The dataset covers EU law (EUR-Lex, English) and Japanese law (e-Gov, Japanese), containing 703 revision events and approximately 181,000 articles, supporting two retrieval tasks (Rat2Rev and Rev2Rev) on bilingual corpora. The dataset is curated by a team of experts, available in English and Japanese, and licensed under CC BY 4.0 (EU subset) and CC BY 4.0/CC0 1.0 (Japanese subset). The dataset structure includes 12 configurations, sharing two language-aligned corpora with components such as corpora, queries, and relevance labels. It is designed as a research benchmark for training and evaluating legal text retrieval models, particularly suited for scenarios where queries and target documents differ significantly in length and register.

创建时间：

2026-05-03

原始信息汇总

数据集概述：ReCaRe

数据集简介

ReCaRe（发音为 "re-care"）是一个双语法律基准数据集，用于**修订候选项检索（Revision Candidate Retrieval, RCR）**任务。该数据集覆盖欧盟法律（EUR-Lex，英语）和日本法律（e-Gov，日语），包含 703 个修订事件和约 181k 条法律条款，支持在双语语料库上进行两项检索任务。

任务定义

ReCaRe 定义了两个互补的修订候选检索任务：

Rat2Rev (Rationale-to-Revision Retrieval)： 给定拟议修订的文本理由（长文、抽象），检索需要修改的具体条款。
Rev2Rev (Revision-to-Revision Retrieval)： 给定一个待修订的条款，检索同一立法事件中共同修订的其他条款（共同修订条款）。

数据集规模与结构

数据集组织为 12 个配置（configs），共享两个按语言对齐的语料库：

配置（Config）	数据切分	记录数
`corpus-en`	corpus	91,361
`corpus-ja`	corpus	90,170
`queries-rat2rev-en`	queries	340
`queries-rat2rev-ja`	queries	363
`queries-rev2rev-en`	queries	1,509
`queries-rev2rev-ja`	queries	1,653
`qrels-rat2rev-en`	train / validation / test	2,063 / 1,948 / 2,080
`qrels-rat2rev-ja`	train / validation / test	3,228 / 2,501 / 3,395
`qrels-rev2rev-en`	train / validation / test	12,088 / 8,189 / 8,156
`qrels-rev2rev-ja`	train / validation / test	15,054 / 13,591 / 14,853
`metadata-en`	metadata	91,361
`metadata-ja`	metadata	90,170

所有文件均为 JSONL 格式，遵循 BEIR 惯例的 Schema（_id、text、query-id、corpus-id、score）。

元数据（metadata）Schema（16 个字段）： amendment_law_id、law_id、type_of_change、egov_compare_url、law_title_before、revision_id_before、article_id_before、article_number_before、caption_before、text_before、law_title_after、revision_id_after、article_id_after、article_number_after、caption_after、text_after。

数据来源与创建

来源数据： 仅包含来自官方门户的公开法律文本：
- 欧盟子集： EUR-Lex（CC BY 4.0 / CC0）— CELEX 编号的合并法规、指令和决定（2010-2025）。
- 日本子集： e-Gov 法令検索、日本法令索引、衆議院議案（CC BY 4.0 / CC0）— 合并法规和修订法案（2019-2025）。
数据创建： 查询和相关性标签（qrels）通过官方修订对齐自动派生，无需人工逐对标注。
- Rat2Rev 查询： 每个修订法案的官方理由文本（每个修订一条查询）。
- Rev2Rev 查询： 单个被修订的条款（每个修订最多五条查询，当修订条款较多时抽样）。
数据生产者： 欧盟立法机构（理事会、议会、委员会等）和日本政府（国会、各省厅等），以国家机构身份发布公开法律。

语言与许可

语言： 英语（en，欧盟子集）和日语（ja，日本子集）。
许可： CC BY 4.0（欧盟子集）；CC BY 4.0 / CC0 1.0（日本子集，取决于上游来源）。

预期用途

在法律文本上训练和评估检索模型（查询与目标文档在长度和体裁上存在显著差异）。
研究文档维护检索：为专家审查提供修订候选项，区别于问答或段落级检索。
与通用领域 IR 资源（如 BEIR）进行对比基准测试，以刻画低重叠、多目标、带隐式依赖的检索难度。
长上下文与短上下文检索模型的消融实验。

不当用途

不得用于自动化法律起草、自动化修订推荐或任何生产级法律工作流（检索条款仅为专家审查的候选项）。
不得向最终用户提供法律建议。
不得推断个人或人口统计信息。

偏见、风险与局限性

法律范围： 数据集基于欧盟和日本法律，继承其惯例、起草传统及潜在偏见，结论不应迁移至其他司法管辖区或非成文法法律文本。
非法律咨询替代： 数据集为研究资源，检索条款仅作为专家审查的修订候选项。

搜集汇总

数据集介绍

构建方式

ReCaRe（全称为Revision Candidate Retrieval）是一个面向法律领域的双语检索基准数据集，专注于修订候选文档的检索任务。该数据集以欧洲联盟法律（EUR-Lex，英文）与日本法律（e-Gov，日文）为数据源，涵盖了703个修订事件与约18.1万条法律条款。数据集的构建过程严谨且自动化：首先从官方法律门户下载完整的法律文本，按官方编号抽取条款，并识别出明确的法律修订事件（即对先前法律进行修改的修正案）。随后，通过这些修订事件来对齐条款的修订前后版本，并衍生出两类检索任务所需的查询与相关标签。对于Rat2Rev任务，查询文本直接来自修正案的官方理由说明；对于Rev2Rev任务，查询文本则是被修订的条款本身。相关标签则通过确定性方法生成：若某条款属于某修正案所修订的对象，则该修正案的理由说明与该条款构成正例对；若两条条款被同一个修正案事件所修订，则它们彼此构成正例对。整个构建过程无需人工标注，保证了数据的一致性与可扩展性。

使用方法

ReCaRe数据集的使用遵循HuggingFace Datasets库的标准流程，支持直接通过`load_dataset`函数加载。用户可根据研究需求选择12种配置中的一种或多种进行加载，例如加载英文语料库`corpus-en`、日文查询集`queries-rat2rev-ja`或相应相关标签集`qrels-rev2rev-en`。语料库与查询集均为JSONL格式，条目包含`_id`与`text`字段；相关标签集则包含`query-id`、`corpus-id`与`score`字段，并预先划分了训练集、验证集与测试集，便于模型训练与评估。数据格式与BEIR标准兼容，因此可直接使用`ir_measures`、`pytrec_eval`及Pyserini等检索评估工具进行评测。此外，数据集还提供了包含16个字段的元数据配置（`metadata-en`与`metadata-ja`），用于记录条款修订前后的完整信息，供进阶的溯源分析使用。该基准主要用于训练与评估法律文本的检索模型，特别是针对查询与目标文档在长度和风格上差异显著的任务，同时也可用于对比研究长上下文与短上下文检索模型的性能差异。

背景与挑战

背景概述

ReCaRe（Revision Candidate Retrieval Benchmark）是由筑波大学、国立信息学研究所及LY Corporation的研究团队于2025-2026年间精心构建的双语法律检索基准。其核心研究问题聚焦于法律文本演化过程中的文档维护检索——即当法律体系经历修订时，如何精准定位那些需要被修改的候选条款。鉴于现有法律信息检索基准大多侧重于静态语料上的问答任务，ReCaRe开创性地定义了基于推理的修正项检索与基于修订的关联检索两项任务，覆盖欧盟法律与日本法律两大司法管辖区。该数据集包含703个修正事件及约18.1万条法律条款，为法律人工智能领域提供了前所未有的、跨语言的法律文本动态维护研究平台，对推动信息检索与法律文本分析的交叉研究具有深远影响。

当前挑战

ReCaRe所面临的挑战可分为领域问题解决与数据集构建两个维度。在领域层面，该数据集致力于解决法律信息检索中长期被忽视的文档维护难题——传统检索范式假设语料库静态不变，而法律文本却频繁经历修订，亟需一种能够高效识别待修改条款及其关联条款的检索方法。在构建过程中，研究者面临跨语言、跨司法体系的文本对齐挑战：欧盟法律采用整合式修订传统，日本法律则遵循修正法案模式，两种体系在文本结构、条款编号及修订记录方面存在显著差异。此外，从官方门户爬取并解析大量法律文本时，需处理复杂的格式问题与版本对比，且需确保修订事件与具体条款的精确映射，这要求构建自动化的对齐流程以生成可靠的相关性标注，而非依赖昂贵的人工注释。

常用场景

经典使用场景

在法律信息检索领域，文档库的持续演化与维护是一个亟待探索的议题。ReCaRe作为首个聚焦于修订候选检索（RCR）的双语法律基准，提供了两项互补的核心任务：一是根据修订案文理性描述检索需修改的具体条款（Rat2Rev），二是根据某一待修订条款召回同次立法事件中共同修改的其他条款（Rev2Rev）。该基准覆盖欧盟法律（英语）与日本法律（日语）两大法域，包含703个修订事件和约18万条法律条款。通过标准化查询-语料库-相关度三元组格式，研究者可直接用于训练和评估检索模型，尤其适合探究查询与目标文档在长度和文体上显著差异的场景。

解决学术问题

长期以来，信息检索研究多聚焦于静态语料库上的单次问答任务，而对文档维护情境下如何发现需变更的文档这一关键问题关注不足。ReCaRe系统性地填补了这一空白，将修订候选检索从法律文本的学术研究中抽象为可量化的评测任务。它为研究低重叠度、多目标、隐含依赖关系的检索问题提供了标准平台，支持与通用领域IR基准的对比分析。通过区分长上下文与短上下文检索模型的表现差异，该基准有助于揭示传统信息检索方法在处理法规演化场景时面临的独特挑战，推动信息检索理论向动态文档环境拓展。

实际应用

在实际应用中，ReCaRe所定义的检索任务直接服务于法律合规与立法支持工作流。立法机关和法律修订专家可利用Rat2Rev模型，将抽象的政策修改意图（如修正案理由书）快速映射到需要调整的具体法条，大幅提升法规修订的前期审查效率。Rev2Rev任务则帮助法律从业者在修改某一法条时，系统性地发现与之相关的连带修改条款，降低因遗漏关联修订而引发的法律风险。该基准同时为法律科技公司开发智能法律文档管理系统提供了评测标准，有助于推动人工智能在法律文书审阅、法规影响分析等场景中的可靠部署。

数据集最近研究