rag-rfb
收藏Hugging Face2025-03-05 更新2025-03-06 收录
下载链接:
https://huggingface.co/datasets/unicamp-dl/rag-rfb
下载链接
链接失效反馈官方服务:
资源简介:
巴西联邦税务局(Receita Federal do Brasil ― RFB)的检索增强生成(RAG)数据集,专注于探索RAG类系统在巴西法律领域,尤其是税法领域的性能和能力。数据集基于RFB自2016年起发布的关于个人所得税的问题与答案文档构建,包含问题、答案和引用的法律文件。
A Retrieval-Augmented Generation (RAG) dataset from the Brazilian Federal Revenue Service (Receita Federal do Brasil ― RFB). This dataset focuses on exploring the performance and capabilities of RAG-based systems in the Brazilian legal domain, particularly in the field of tax law. It is constructed based on the question-and-answer documents regarding personal income tax released by RFB since 2016, and includes questions, answers, and cited legal documents.
提供机构:
unicamp-dl
创建时间:
2025-03-05
搜集汇总
数据集介绍

构建方式
该数据集以巴西联邦税务局发布的《个人所得税问答》文档为基础,通过提取问题、答案以及支持的官方法律文件构建而成。数据集涵盖了自2016年以来每年的问答内容,并确保了引用的法律文件版本正确,以文本格式提供,适用于文本检索系统。
特点
数据集聚焦于巴西法律领域,特别是税法,包含了715个问题,其中478个问题引用了法律文件。数据以JSON格式组织,每个问题都详细记录了问题编号、摘要、问题文本、答案以及清理后的答案,同时还包含了显式和隐式的外部引用和内部问题链接,以及格式化后的引用信息。
使用方法
用户可以通过访问数据集中的JSON文件来获取问题及其相关答案和法律引用。数据集还提供了压缩包,内含所有引用的法律文件文本,方便用户进行检索增强生成的相关研究。
背景与挑战
背景概述
‘rag-rfb’数据集,全称为Retrieval Augmented Generation (RAG) 数据集,专为巴西联邦税务局(Receita Federal do Brasil — RFB)而构建。该数据集旨在探索RAG类系统在巴西法律领域,尤其是税收法领域内的能力和性能。该数据集的创建基于RFB自2016年起每年发布的问答文档,这些文档针对个人所得税方面的问题提供官方法律文件的具体引用。数据集的构建不仅提取了问题和答案,还包括了所引用的法律文件,为文本检索系统提供了充足的信息资源。该数据集的创建对于研究和优化法律文本检索系统具有重要意义,对相关领域的学术研究和实际应用产生了显著影响。
当前挑战
在构建‘rag-rfb’数据集的过程中,研究者面临了多个挑战。首先,数据集需要准确提取问题、答案以及支持性的法律文件,这要求高度精确的自然语言处理技术。其次,构建过程中涉及到的法律文件的下载和整理,需要确保文件版本的准确性,且要从官方库中抓取原始数据,并将其转换为适合文本检索系统的文本格式。此外,数据集在解决税务领域问题方面也面临挑战,例如如何提高检索系统的准确性和效率,以及如何处理没有外部法律文件引用的问题。
常用场景
经典使用场景
在探索检索增强生成系统在巴西法律领域,尤其是税法领域的性能与能力方面,该rag-rfb数据集提供了一个重要的研究平台。其基于巴西联邦税务局每年发布的关于个人所得税问题的问答文档,构建了一个包含问题、答案以及法律文件参照的综合性数据集,为研究如何将检索与生成相结合以处理法律问题提供了一种经典的使用方式。
实际应用
在实际应用中,rag-rfb数据集可用于开发面向巴西法律专业人士和普通公民的法律咨询系统,通过自动检索相关法律文件并提供解答,提高法律服务的效率和可及性。此外,该数据集亦可用于培训法律辅助人员,提升其处理和解读法律文本的能力。
衍生相关工作
基于rag-rfb数据集的研究已经衍生出一系列相关工作,包括但不限于法律文本的自动摘要、基于检索的问答系统改进、以及法律文件分类和归档系统。这些相关工作进一步扩展了数据集的应用范围,推动了法律领域信息技术的进步。
以上内容由遇见数据集搜集并总结生成



