BR-TaxQA-R
收藏arXiv2025-05-22 更新2025-05-24 收录
下载链接:
https://huggingface.co/datasets/unicamp-dl/BR-TaxQA-R
下载链接
链接失效反馈官方服务:
资源简介:
BR-TaxQA-R 是一个针对巴西个人所得税法的问题回答数据集,包括案例法。该数据集包含 715 个问题,来自 2024 年巴西税务局发布的官方问答文档,并增加了 CARF 的法规和行政裁决。我们使用 OpenAI 嵌入进行搜索,使用 GPT-4o-mini 进行答案生成,并实现了检索增强生成 (RAG) 管道。我们比较了不同的文本分割策略,并使用 RAGAS-based 指标将我们的系统与 ChatGPT 和 Perplexity.ai 等商业工具进行了基准测试。结果表明,我们的自定义 RAG 管道在响应相关性方面优于商业系统,表明与用户查询的更强对齐,而商业模型在事实正确性和流畅性方面得分更高。这些发现突出了法律基础生成和语言流畅性之间的权衡。至关重要的是,我们认为在税收等高风险领域,人工专家评估对于确保 AI 生成的答案的法律有效性仍然至关重要。BR-TaxQA-R 公开可在 https://huggingface.co/datasets/unicamp-dl/BR-TaxQA-R 上获得。
BR-TaxQA-R is a question answering dataset targeting Brazilian Personal Income Tax Law, including case law. This dataset consists of 715 questions sourced from official Q&A documents published by the Brazilian Federal Revenue Service in 2024, with additional CARF regulations and administrative rulings included. We employed OpenAI embeddings for retrieval and GPT-4o-mini for answer generation, and constructed a Retrieval-Augmented Generation (RAG) pipeline. We compared various text splitting strategies, and benchmarked our system against commercial tools including ChatGPT and Perplexity.ai using RAGAS-based evaluation metrics. The results demonstrate that our custom RAG pipeline outperforms commercial systems in response relevance, indicating stronger alignment with user queries, while commercial models achieved higher scores in factual correctness and fluency. These findings highlight the trade-off between legally grounded generation and linguistic fluency. Most importantly, we contend that in high-risk domains such as taxation, manual expert evaluation remains essential to guaranteeing the legal validity of AI-generated answers. BR-TaxQA-R is publicly accessible at https://huggingface.co/datasets/unicamp-dl/BR-TaxQA-R.
提供机构:
巴西坎皮纳斯州立大学 (UNICAMP), 坎皮纳斯–SP, 巴西
创建时间:
2025-05-22
原始信息汇总
BR-TaxQA-R 数据集概述
数据集基本信息
- 许可证: CC-BY-4.0
- 领域: 巴西税法(个人所得税领域)
- 数据来源: 巴西联邦税务局(RFB)2016-2024年发布的《问答文档》
数据集构成
核心数据文件
-
问题数据
- 文件:
questions_QA_2024_v1.0.json - 记录数: 715个问题
- 有效引用: 478个法律文档引用
- 无外部引用问题: 117个
- 文件:
-
法律文档
- 文件:
referred_legal_documents_QA_2024_v1.0.json - 文档数: 478个
- 格式: 单行文本数据
- 文件:
-
判例文档
- 文件:
acordaos_CARF_2023.json - 案例数: 7204个(2023年税务行政上诉案件)
- 文件:
数据结构说明
问题数据结构
json { "question_number": "问题编号", "question_summary": "问题摘要", "question_text": "完整问题文本", "answer": ["原始答案段落列表"], "answer_cleaned": "去除引用后的纯净答案", "references": "显式外部引用", "linked_questions": "关联问题引用", "formatted_references": "结构化显式引用", "embedded_references": "隐式嵌入引用", "formatted_embedded_references": "结构化隐式引用", "all_formated_references": "合并后的完整引用" }
法律文档结构
json { "filename": "法律文档文件名", "filedata": "文档全文(单行文本)" }
使用方式
python
加载问题数据
questions = datasets.load_dataset("unicamp-dl/rag-rfb")
加载法律文档
sources = datasets.load_dataset("unicamp-dl/rag-rfb", "2024.sources")
加载判例数据
caselaw = datasets.load_dataset("unicamp-dl/rag-rfb", "2024.caselaw")
注意事项
- 结构化引用字段(
formatted_*)在加载后会从字典列表转换为多列表字典格式 - 判例数据来自巴西税务上诉行政委员会(CARF)2023年裁决
搜集汇总
数据集介绍

构建方式
BR-TaxQA-R数据集的构建过程分为三个关键步骤。首先从巴西联邦税务局(RFB)2024年发布的官方问答文档中提取了715个问题及其答案,采用自动化工具与人工校验相结合的方式确保信息提取的准确性。其次,通过半自动化方法处理答案中引用的法律文件,利用大语言模型辅助识别并消除不同缩写形式导致的重复引用。最后,从巴西财政部官方数据库爬取2023年行政裁决案例,基于关键词匹配和时间筛选标准构建补充性的判例法集合,确保判例与税务问题的相关性。整个构建过程特别注重保持法律文件的原始结构和引用关系,形成了包含问题集、法律源文件集和判例集的三元结构。
特点
该数据集最显著的特点是实现了巴西个人所得税法律条文与行政判例的有机融合。问题集中16%的问题无需外部引用即可回答,其余问题平均引用2.7个法律文件,其中10个核心法律文件覆盖了53%的引用量。判例集包含7,204个行政裁决,平均长度3,171词,为法律条文提供了实务解释维度。数据集特别标注了显式引用与嵌入引用,并通过格式化处理统一了法律文件的命名规范。这种设计既保留了原始文档的完整性,又通过结构化字段支持检索增强生成系统的开发,在法律专业性与机器学习适用性之间取得了平衡。
使用方法
该数据集专为评估检索增强生成(RAG)系统设计,使用时应建立分层处理流程。首先采用滑动窗口(2048词窗口/1024词步长)或递归分块策略对法律文件进行语义分割,通过text-embedding-3-small模型生成向量索引。查询时结合问题嵌入向量检索相关法律片段,输入GPT-4o-mini模型生成符合法律格式的回答。评估阶段建议采用RAGAS指标体系,重点监测响应相关性(0.829最优)与事实准确性(0.469最优)的平衡。对于判例法的使用,需注意其补充解释作用而非替代法律条文,最佳实践表明结合滑动窗口分割与判例检索能提升系统表现。数据集支持与ChatGPT等商业工具的对比研究,但需辅以专家评估确保法律有效性。
背景与挑战
背景概述
BR-TaxQA-R数据集由巴西坎皮纳斯州立大学(UNICAMP)等机构的研究团队于2025年提出,旨在构建一个支持巴西个人所得税法领域的问题回答与法律引用的专业数据集。该数据集基于巴西税务局2024年发布的官方问答文档,整合了715个法律问题及其对应的答案,并进一步丰富了来自巴西联邦税务争议行政上诉委员会(CARF)的判例法内容。作为法律自然语言处理领域的重要资源,BR-TaxQA-R通过结合成文法规与判例法,为开发检索增强生成(RAG)系统提供了标准化测试平台,推动了葡萄牙语法律文本处理技术的发展。
当前挑战
该数据集面临的核心挑战体现在两个维度:在领域问题层面,法律问答系统需精准处理税法条文的复杂语义结构,同时平衡判例法的动态解释与成文法的静态条款之间的张力;在构建过程中,研究团队需克服法律文本的多版本管理、判例筛选的时效性要求,以及法律引用格式的非标准化问题。特别是CARF判例的纳入需通过关键词匹配和时间过滤双重验证,以避免引用过时或无关判例。此外,法律文档特有的层级化结构(如条款、段落的分割)对文本分块策略提出了更高要求,常规自然语言处理方法难以直接适用。
常用场景
经典使用场景
BR-TaxQA-R数据集在巴西个人所得税法律领域的问答系统中具有经典应用场景。该数据集整合了巴西国家税务局发布的官方问答文档、相关法规条文以及行政法院裁决案例,为构建基于检索增强生成(RAG)技术的法律问答系统提供了坚实基础。通过这一数据集,研究者能够训练和评估模型在复杂税务问题上的回答能力,同时确保答案具有明确的法律依据和可追溯性。
实际应用
在实际应用层面,BR-TaxQA-R数据集可直接服务于巴西税务系统的智能化建设。税务机构可利用该数据集开发虚拟税务顾问系统,为纳税人和税务从业者提供准确的法律咨询。法律科技公司可基于此构建自动化税务申报辅助工具,降低合规成本。此外,该数据集还可用于培训法律专业学生,帮助他们快速掌握复杂的税务法规体系。
衍生相关工作
围绕BR-TaxQA-R数据集已衍生出多项重要研究工作。研究团队基于该数据集开发了定制化的RAG管道,比较了不同文本分割策略对法律问答性能的影响。相关研究还对比了专业法律模型与通用商业工具在税务问答中的表现差异。这些工作为法律领域的检索增强生成技术建立了基准,并推动了针对葡萄牙语法律文本的专业化模型开发。
以上内容由遇见数据集搜集并总结生成



