JUÁ
收藏arXiv2026-04-08 更新2026-04-09 收录
下载链接:
https://huggingface.co/spaces/ufca-llms/jua-leaderboard
下载链接
链接失效反馈官方服务:
资源简介:
JUÁ是首个针对巴西法律文本的多领域信息检索基准测试,由卡拉里联邦大学等机构联合构建,涵盖判例、法规和问答式法律检索场景。数据集包含1714条测试样本,源自巴西联邦审计法院(TCU)精选判例库,采用难度分层抽样策略构建,并基于BM25算法标注检索难度等级。其核心数据为法律摘要(enunciado)与对应裁决摘要(excerto)的配对,支持二元精确匹配评估。该数据集旨在为葡萄牙语法律检索提供标准化评估框架,推动法律AI在判例分析、合规审查等场景的应用。
提供机构:
卡拉里联邦大学; 坎皮纳斯州立大学; 巴西众议院; NeuralMind.ai
创建时间:
2026-04-08
搜集汇总
数据集介绍

构建方式
在巴西法律信息检索领域,JUÁ数据集的构建体现了对异构法律文本集合的系统整合。该数据集融合了五个子集,包括新构建的JUÁ-Juris以及四个经改编的现有公开资源:JurisTCU、NormasTCU、Ulysses-RFCorpus和BR-TaxQA-R。其中JUÁ-Juris的构建采用了基于BM25检索难度的分层抽样策略,通过计算每个查询对应文档在BM25排序中的位置作为难度分数,并依据对数分箱将实例划分为易、中、难及未找到等层级,进而按比例抽取测试集,确保了数据在多种检索难度上的均衡覆盖。其余数据集则经过统一的预处理与格式转换,以适应共同的评估协议,最终形成一个覆盖判例、规范性文本、立法文件及问答式检索的多领域法律检索基准。
特点
JUÁ数据集的核心特点在于其高度的异构性与系统性评估框架。该基准涵盖了巴西法律领域的多种检索场景,包括判例检索、规范性文件检索、立法检索以及税务问答检索,每种场景在文档类型、查询风格及相关性定义上均存在显著差异。这种设计使得JUÁ能够有效区分不同检索范式的性能表现,例如词汇匹配与语义检索在不同子集上的优劣对比。数据集还引入了基于难度的测试集构建方法,增强了对检索系统鲁棒性的评估能力。此外,JUÁ配套了公开排行榜和固定的评估指标,如NDCG@10、MRR@10等,支持持续、可复现的跨模型比较,为巴西葡萄牙语法律信息检索研究提供了标准化的评估基础设施。
使用方法
JUÁ数据集的使用主要围绕其作为基准评估框架的功能展开。研究人员可通过Hugging Face平台获取各子集,并遵循统一的评估协议对检索系统进行测试。典型流程包括使用BM25作为词汇基线,与密集检索模型及重排序模型进行对比,在五个子集上分别计算排名指标。数据集支持领域自适应研究,例如利用JUÁ-Juris等子集的监督信号对预训练嵌入模型进行微调,以提升法律领域的检索性能。同时,公开排行榜允许提交系统输出,实现跨机构的透明比较。在使用中需注意数据集的异构性,建议结合各子集的具体检索机制进行细粒度分析,以全面评估模型在不同法律检索场景下的泛化能力与局限性。
背景与挑战
背景概述
法律信息检索作为信息检索领域的专业化分支,其核心任务是从法律文档语料库中精准定位与用户查询相关的材料。巴西葡萄牙语法律检索长期以来面临系统性评估的困境,现有数据集在文档类型、查询风格及相关性定义上存在显著差异,阻碍了不同检索范式的直接比较与可复现研究。为应对这一挑战,由巴西联邦卡里里大学、坎皮纳斯州立大学、巴西众议院及NeuralMind.ai的研究人员于2026年共同创建了JUÁ基准。该基准旨在为巴西法律文本集合的信息检索提供一个公开、统一的评估框架,其核心研究问题聚焦于如何设计一个能够覆盖司法判例、立法文本、规范性文件及问答驱动检索等多种法律检索场景的异构基准,以支持更可复现、可比较的系统评估。JUÁ不仅是一个静态的数据集发布,更被定位为一个持续评估的基础设施,包含共享协议、通用排序指标、固定数据划分及公开排行榜,对推动葡萄牙语法律人工智能领域的方法创新与标准化评估具有重要影响力。
当前挑战
JUÁ基准致力于解决法律信息检索领域的两大核心挑战。在领域问题层面,法律检索面临文档异构性、语言专业性及相关性定义复杂性的严峻考验。法律语料库通常包含判例、法规、行政指导等不同机构产出的长文档,其语言高度技术化且相互引用紧密,使得基于简单主题或语义相似性的传统检索方法难以准确捕捉法律层面的关联性。例如,词汇重叠度低的文档可能因共享相同的法律依据或先例而高度相关,这要求检索系统必须深入理解法律逻辑与专业术语。在构建过程层面,基准的创建面临多重困难:首先,整合多个现有法律数据集(如JurisTCU、Ulysses-RFCorpus等)需统一其各异的查询风格、相关性标注尺度及评估设置,以实现跨数据集的公平比较;其次,构建新的JUÁ-Juris子集时,需基于BM25检索难度进行分层采样,以覆盖从易到难的检索场景,此过程依赖于单一诱导器的排序结果,可能引入词法匹配的偏差;最后,确保基准在覆盖司法、立法、问答等多种检索体制的同时,维持评估协议的一致性,并设计能够有效区分稀疏检索、稠密检索及重排序等不同范式性能的评估指标,构成了数据集构建中的核心设计挑战。
常用场景
经典使用场景
在巴西法律信息检索领域,JUÁ数据集作为首个跨多类型法律文档的公开基准,其经典使用场景聚焦于系统性地评估和比较不同检索范式在异构法律文本集合中的性能。该数据集整合了判例法、规范性文本及立法检索等多种法律检索情境,为研究者提供了一个统一的评估框架,用以测试稀疏检索、稠密检索及重排序模型在葡萄牙语法律文本中的表现。通过公共排行榜和固定评估协议,JUÁ促进了检索方法在法律领域的可复现性和可比性研究。
解决学术问题
JUÁ数据集解决了巴西葡萄牙语法律信息检索领域长期存在的评估碎片化问题。传统上,该领域缺乏统一的公共基准,导致不同数据集在文档类型、查询风格和相关性定义上差异显著,难以进行系统比较。JUÁ通过整合多个法律检索资源并建立共享评估协议,为研究者提供了一个标准化的测试平台,使得跨检索范式的直接比较成为可能。这不仅推动了法律检索模型的性能提升,还深化了对法律文本异构性如何影响检索效果的理解。
衍生相关工作
JUÁ数据集衍生了一系列经典研究工作,特别是在法律检索模型的领域适应和评估方法方面。基于JUÁ的基准设计,研究者开发了针对葡萄牙语法律文本的领域适应稠密检索器,如微调后的Qwen嵌入模型,这些模型在JUÁ-Juris等子集上展现了显著的性能提升。同时,JUÁ的异构性评估框架也启发了对BM25等传统检索方法在法律领域鲁棒性的深入分析,推动了法律信息检索向更细致、更可比的评估范式演进。
以上内容由遇见数据集搜集并总结生成



