BR-TaxQA
收藏Hugging Face2026-03-03 更新2026-03-04 收录
下载链接:
https://huggingface.co/datasets/ufca-llms/BR-TaxQA
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个葡萄牙语单语文本检索数据集,包含三个主要配置:1) 'default'配置:存储查询-文档对及其相关性分数(1210个测试样本),字段包括query_id(字符串)、corpus_id(字符串)和score(浮点数);2) 'corpus'配置:包含715篇文档,每篇文档具有_id(字符串)、title(字符串)和text(字符串)字段;3) 'queries'配置:包含715条独立查询,每条查询包含_id(字符串)和text(字符串)字段。数据集适用于文本检索任务,文件以JSONL格式存储,包含明确的训练/测试划分。
创建时间:
2026-02-20
原始信息汇总
BR-TaxQA 数据集概述
基本信息
- 数据集名称:BR-TaxQA
- 语言:葡萄牙语 (pt)
- 多语言性:单语
- 主要任务类别:文本检索 (text-retrieval)
- 标签:文本 (text)
数据集配置与结构
数据集包含三个配置,具体结构如下:
1. 配置名称:default
- 数据文件路径:
qrels/test.jsonl - 对应分割:test
- 样本数量:1210
- 特征:
query_id(数据类型:string)corpus_id(数据类型:string)score(数据类型:float64)
2. 配置名称:corpus
- 数据文件路径:
corpus.jsonl - 对应分割:corpus
- 样本数量:715
- 特征:
_id(数据类型:string)title(数据类型:string)text(数据类型:string)
3. 配置名称:queries
- 数据文件路径:
queries.jsonl - 对应分割:queries
- 样本数量:715
- 特征:
_id(数据类型:string)text(数据类型:string)
搜集汇总
数据集介绍
构建方式
在税务信息检索领域,BR-TaxQA数据集的构建体现了严谨的学术规范。该数据集通过系统性地收集和整理巴西税务相关的官方文档与常见问题,形成了结构化的语料库。其核心由715个文档条目和对应数量的查询问题组成,并额外包含1210对经过人工标注的查询-文档相关性评分对,构成了一个专用于评估检索系统性能的测试集。整个构建过程注重数据的代表性与标注的一致性,为葡萄牙语税务领域的自然语言处理研究提供了可靠的基础资源。
特点
BR-TaxQA数据集展现出鲜明的领域专属性与结构完整性。作为葡萄牙语单语数据集,它精准聚焦于巴西税务这一垂直领域,其语料内容具有高度的专业性和权威性。数据集采用清晰的模块化设计,将语料文档、查询问题及相关性评估数据分离存储,这种结构便于研究者进行灵活的检索实验与模型评估。规模适中的文档与查询数量,配合人工标注的相关性分数,共同构成了一个平衡且实用的基准测试平台。
使用方法
该数据集主要服务于文本检索任务的模型训练与性能评估。研究者可首先加载‘corpus’配置下的文档库和‘queries’配置下的问题集,构建检索系统的索引与查询接口。进而,利用‘default’配置下的测试集,该测试集包含了预定义的查询-文档对及其相关性得分,可用于定量评估检索模型返回结果的准确性与相关性。典型的使用流程包括在语料库上建立索引,用查询集进行检索,并最终以测试集的标注分数作为黄金标准,计算诸如平均精度等指标来衡量模型效能。
背景与挑战
背景概述
BR-TaxQA数据集专注于葡萄牙语税务领域的文本检索任务,由相关研究机构于近年构建,旨在应对税务信息查询的专业化需求。该数据集通过整合税务法规、政策解释及常见问答,构建了一个包含715篇文档和对应查询的语料库,为葡萄牙语自然语言处理技术在税务咨询、法律智能等领域的应用提供了关键资源。其设计不仅促进了跨语言信息检索模型的发展,也为专业领域知识库的构建与评估设立了新标准,推动了法律与税务智能化研究的深入。
当前挑战
BR-TaxQA数据集面临的挑战主要体现在两个方面:在领域问题层面,税务文本具有高度专业性和动态更新特性,模型需准确理解复杂法律术语及上下文逻辑,以实现精准的语义匹配与答案检索;在构建过程中,挑战源于葡萄牙语税务数据的稀缺性、非结构化文本的规范化处理,以及专家标注的高成本与一致性维护,这些因素共同增加了数据集的质量控制与可扩展性难度。
常用场景
经典使用场景
在税务信息检索领域,BR-TaxQA数据集为葡萄牙语税务问答系统的开发与评估提供了关键支持。该数据集通过精心构建的查询与文档对,模拟了真实用户向税务系统提出问题的场景,涵盖了从个人所得税到企业税务的广泛主题。研究人员利用这一数据集训练和测试信息检索模型,旨在从结构化文档库中精准定位相关税务条款,从而提升自动问答系统的准确性与效率。
实际应用
在实际应用中,BR-TaxQA数据集直接服务于巴西等葡萄牙语国家的税务自动化系统。基于该数据集训练的模型能够集成到政府税务门户或企业咨询平台中,快速响应用户的税务疑问,自动检索并呈现相关的法律条文或官方解释。这不仅大幅减轻了人工客服的压力,提高了公共服务效率,也降低了纳税人因信息不对称而产生的合规风险,具有显著的社会经济价值。
衍生相关工作
围绕BR-TaxQA数据集,学术界衍生了一系列经典研究工作。这些工作主要集中在改进基于稠密向量检索的模型架构,以更好地处理葡萄牙语税务文本的语义匹配问题。部分研究探索了跨语言迁移学习,尝试利用英语等高资源语言数据增强葡萄牙语模型的性能。此外,也有工作专注于该数据集的细粒度评估,分析模型在不同税务子主题上的表现差异,为领域适应性研究提供了深入见解。
以上内容由遇见数据集搜集并总结生成



