jua
收藏Hugging Face2026-02-13 更新2026-02-14 收录
下载链接:
https://huggingface.co/datasets/ufca-llms/jua
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是一个葡萄牙语单语文本检索数据集,包含三个配置:1) 默认配置(default):包含查询ID(query-id)、语料ID(corpus-id)和相关性分数(score)字段,测试集1714条,训练集15433条;2) 语料配置(corpus):包含文档ID(_id)、标题(title)和正文(text)字段,共17147条;3) 查询配置(queries):包含查询ID(_id)和查询文本(text)字段,共17147条。数据集适用于文本检索任务,但未提供具体的构建背景和使用场景说明。
创建时间:
2026-02-11
原始信息汇总
数据集概述
基本信息
- 数据集名称: jua
- 托管平台: Hugging Face
- 语言: 葡萄牙语 (pt)
- 多语言性: 单语 (monolingual)
任务类别
- 主要任务类别: 文本检索 (text-retrieval)
数据集配置与结构
数据集包含三个配置,每个配置对应不同的数据文件和用途。
1. 配置: default
- 描述: 包含查询与语料库之间的关联评分。
- 特征:
query-id(string): 查询标识符。corpus-id(string): 语料库文档标识符。score(float64): 关联评分。
- 数据划分:
test: 1,714 个示例。train: 15,433 个示例。
- 数据文件:
test划分:qrels/test.jsonltrain划分:qrels/train.jsonl
2. 配置: corpus
- 描述: 语料库文档集合。
- 特征:
_id(string): 文档唯一标识符。title(string): 文档标题。text(string): 文档正文文本。
- 数据划分:
corpus: 17,147 个示例。
- 数据文件:
corpus划分:corpus.jsonl
3. 配置: queries
- 描述: 查询集合。
- 特征:
_id(string): 查询唯一标识符。text(string): 查询文本。
- 数据划分:
queries: 17,147 个示例。
- 数据文件:
queries划分:queries.jsonl
数据规模汇总
- 语料库文档总数: 17,147
- 查询总数: 17,147
- 训练集查询-文档关联对: 15,433
- 测试集查询-文档关联对: 1,714
标签
- text
搜集汇总
数据集介绍

构建方式
在文本检索领域,构建高质量数据集是评估模型性能的关键。JUA数据集通过系统化流程构建,其语料库包含17147个文档,每个文档均配有标题与正文,形成结构化知识库。查询部分同样涵盖17147条文本,与语料库一一对应,确保了检索任务的完整性。训练集与测试集分别包含15433和1714条查询-文档相关性标注,这些标注基于人工或自动化方法生成,为模型训练与评估提供了可靠基础。
特点
JUA数据集以葡萄牙语单语文本为核心,专注于文本检索任务,具有明确的领域针对性。其结构设计精良,分为语料库、查询及相关性标注三个独立模块,便于灵活调用与分析。数据集规模适中,文档与查询数量均衡,既满足了模型训练的数据需求,又避免了过大的计算负担。相关性评分采用浮点数形式,提供了细粒度的匹配度信息,有助于提升检索模型的精度与鲁棒性。
使用方法
使用JUA数据集时,研究人员可首先加载语料库与查询模块,构建检索系统的索引与查询池。训练集用于训练检索模型,学习查询与文档之间的语义关联;测试集则用于评估模型性能,验证其泛化能力。数据集以JSONL格式存储,支持主流机器学习框架的直接读取与处理。通过整合相关性评分,用户能够实施有监督学习,优化排序算法,推动葡萄牙语信息检索技术的发展。
背景与挑战
背景概述
在信息检索领域,葡萄牙语文本检索数据集相对稀缺,jua数据集应运而生,旨在填补这一空白。该数据集由专注于多语言自然语言处理的研究团队构建,其核心研究问题聚焦于提升葡萄牙语文档与查询之间的语义匹配精度。通过提供大规模的查询-文档对及其相关性评分,jua为开发高效的跨语言或单语检索模型奠定了数据基础,对促进葡萄牙语地区的数字化信息访问具有显著影响力。
当前挑战
jua数据集面临的挑战主要源于其应用领域与构建过程。在领域层面,葡萄牙语文本检索需克服语言特有的形态复杂性和词汇歧义,这对模型的语义理解能力提出了更高要求。构建过程中,数据收集面临葡萄牙语高质量语料稀缺的困境,且人工标注查询-文档相关性需确保标注者具备语言与文化背景知识,以维持标注一致性与准确性,这些因素共同增加了数据集构建的复杂度。
常用场景
经典使用场景
在信息检索领域,JUA数据集以其葡萄牙语单语文本检索任务而著称,为研究者提供了丰富的查询与文档匹配对。该数据集常用于训练和评估检索模型,特别是针对密集检索或语义匹配算法的性能测试。通过其结构化的查询、文档及相关性评分,研究人员能够深入探索跨语言或特定语言环境下的检索机制,推动检索技术在多语言场景中的适应性发展。
实际应用
在实际应用中,JUA数据集可服务于构建智能搜索引擎、推荐系统或问答平台,特别是在葡萄牙语地区的商业与教育领域。例如,企业可利用该数据集优化本地化搜索体验,提升文档检索的准确性与效率;教育机构则能基于其开发语言学习工具或学术资源库,增强信息获取的便捷性。这些应用不仅改善了用户体验,也促进了葡萄牙语数字内容的可访问性。
衍生相关工作
围绕JUA数据集,衍生了一系列经典研究工作,主要集中在改进密集检索模型、多语言表示学习及跨语言迁移方法上。例如,研究者利用该数据集训练BERT-based检索器,以验证其在葡萄牙语上的有效性;同时,它也作为基准参与了多语言检索竞赛,推动了如mDPR等模型的创新。这些工作不仅丰富了检索技术的理论体系,还为后续低资源语言处理提供了宝贵经验。
以上内容由遇见数据集搜集并总结生成



