five

JurisTCU

收藏
arXiv2025-03-11 更新2025-03-13 收录
下载链接:
https://huggingface.co/datasets/LeandroRibeiro/JurisTCU
下载链接
链接失效反馈
官方服务:
资源简介:
JurisTCU是一个葡萄牙语法律信息检索数据集,由巴西联邦法院审计院提供,包含16045个司法判例文档和150个查询,每个查询都附有15个相关性的标注文档,总计2250个判断。数据集来源于审计院精选的判例,旨在支持葡萄牙语信息检索研究社区,并用于评估搜索系统。

JurisTCU is a Portuguese legal information retrieval dataset provided by the Brazilian Federal Court of Audit. It consists of 16,045 judicial precedent documents and 150 queries, where each query is paired with 15 relevance-labeled documents, totaling 2,250 relevance judgments. The dataset is sourced from precedents carefully selected by the Court, aiming to support the Portuguese-language information retrieval research community and be used for evaluating search systems.
提供机构:
巴西联邦法院审计院(Tribunal de Contas da União – TCU)
创建时间:
2025-03-11
搜集汇总
数据集介绍
main_image_url
构建方式
JurisTCU数据集的构建基于巴西联邦审计法院(TCU)的“精选判例”数据库。数据集包含16,045份判例文件,这些文件是由领域专家从TCU的判例中挑选出来的,代表了法院对法律规范的规范性理解。为了生成查询,研究人员使用了TCU搜索系统中最常使用的50个查询、50个最常访问的文档的摘要以及50个基于LLM生成的代表性问题。查询被分为三个组:基于真实用户关键词的查询、基于合成关键词的查询和基于合成问题的查询。相关性判断是通过结合LLM评分和领域专家的验证来生成的。
特点
JurisTCU数据集的特点在于其包含的文档和查询都是用巴西葡萄牙语编写的,这使得它成为葡萄牙语法律信息检索(LIR)研究社区的一个宝贵资源。此外,数据集中的查询和文档相关性判断是专门为搜索系统设计的,使得该数据集非常适合用于评估搜索系统的性能。数据集中的查询和文档相关性判断是通过结合LLM评分和领域专家的验证来生成的,这为研究提供了高质量的数据。
使用方法
使用JurisTCU数据集的方法包括但不限于以下几种:1. 作为评估搜索系统性能的基准;2. 研究法律信息检索(LIR)技术和模型;3. 开发和测试新的搜索策略。该数据集可以通过Hugging Face数据集库免费获取,并且包含了用于评估搜索系统的相关性判断。
背景与挑战
背景概述
JurisTCU数据集的创建填补了葡萄牙语法律信息检索(LIR)领域的数据集空白。该数据集由巴西联邦审计法院(TCU)的16045份法律文件组成,并附有150个查询和2250个相关性判断。该数据集旨在解决现有数据集中缺乏查询相关性注释的问题,并为葡萄牙语LIR研究社区提供评估搜索系统的基准。JurisTCU数据集的创建时间为2024年,主要研究人员包括Leandro Carísio Fernandes、Leandro dos Santos Ribeiro、Marcos Vinícius Borela de Castro、Leonardo Augusto da Silva Pacheco和Edans Flávius de Oliveira Sandes。该数据集对相关领域的影响力体现在提供了首个包含查询相关性注释的葡萄牙语LIR数据集,并为评估和改进法律搜索系统提供了重要的资源。
当前挑战
JurisTCU数据集面临的挑战包括:1)所解决的领域问题:该数据集旨在解决法律信息检索领域,特别是葡萄牙语法律信息检索领域的数据集稀缺问题。法律信息检索领域面临的主要挑战包括如何有效地从大量法律文件中检索相关信息,以及如何确保检索结果的相关性和准确性。2)构建过程中所遇到的挑战:在构建JurisTCU数据集的过程中,研究人员面临着如何获取大量法律文件和相关性判断的挑战。为了解决这些问题,研究人员采用了混合方法,结合LLM-based评分和专家领域验证来生成相关性判断。此外,研究人员还面临着如何有效地组织和处理大量数据的挑战。为了应对这一挑战,研究人员采用了多种数据预处理和搜索技术,包括文档扩展方法和语义搜索方法。
常用场景
经典使用场景
JurisTCU数据集主要用于法律信息检索(LIR)领域,特别适用于评估基于巴西葡萄牙语的搜索系统。该数据集包含来自巴西联邦法院的16045份法律文件和150个查询,每个查询都与15个相关文档相关联。这些查询被分为三类:真实用户基于关键字的查询、合成基于关键字的查询和合成基于问题的查询。通过结合LLM评分和专家领域验证的混合方法,产生了相关性判断。JurisTCU数据集在14项实验中使用,包括基于文档扩展的词法搜索和基于BERT的以及OpenAI嵌入的语义搜索。结果表明,文档扩展方法显著提高了标准BM25搜索在数据集上的性能,在评估基于关键字的查询时,P@10、R@10和nDCG@10指标的提高超过45%。在嵌入模型中,OpenAI模型产生了最佳结果,基于关键字的查询在P@10、R@10和nDCG@10指标上提高了约70%,表明这些密集嵌入捕捉了该领域的语义关系,超越了依赖词汇项的依赖。
实际应用
JurisTCU数据集的实际应用场景包括但不限于法律研究和实践、法律信息检索系统的开发与评估。该数据集可以帮助法律专业人士、研究人员和政策制定者更好地理解和分析法律文本,从而提高法律研究和实践的质量。此外,该数据集还可以用于开发更高效、更准确的法律信息检索系统,从而提高法律服务的效率和质量。
衍生相关工作
JurisTCU数据集的发布为葡萄牙语法律信息检索领域的研究提供了重要的数据基础。基于该数据集的研究可以进一步探索如何提高法律搜索系统的性能,特别是在处理法律领域中的词汇不匹配问题。此外,该数据集还可以用于开发更高效、更准确的法律信息检索系统,从而提高法律服务的效率和质量。因此,JurisTCU数据集的发布对于推动葡萄牙语法律信息检索领域的研究和应用具有重要意义。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作