jua

Hugging Face2026-02-13 更新2026-02-14 收录

下载链接：

https://huggingface.co/datasets/ufca-llms/jua

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个葡萄牙语单语文本检索数据集，包含三个配置：1) 默认配置（default）：包含查询ID（query-id）、语料ID（corpus-id）和相关性分数（score）字段，测试集1714条，训练集15433条；2) 语料配置（corpus）：包含文档ID（_id）、标题（title）和正文（text）字段，共17147条；3) 查询配置（queries）：包含查询ID（_id）和查询文本（text）字段，共17147条。数据集适用于文本检索任务，但未提供具体的构建背景和使用场景说明。

创建时间：

2026-02-11

原始信息汇总

数据集概述

基本信息

数据集名称: jua
托管平台: Hugging Face
语言: 葡萄牙语 (pt)
多语言性: 单语 (monolingual)

任务类别

主要任务类别: 文本检索 (text-retrieval)

数据集配置与结构

数据集包含三个配置，每个配置对应不同的数据文件和用途。

1. 配置: `default`

描述: 包含查询与语料库之间的关联评分。
特征:
- query-id (string): 查询标识符。
- corpus-id (string): 语料库文档标识符。
- score (float64): 关联评分。
数据划分:
- test: 1,714 个示例。
- train: 15,433 个示例。
数据文件:
- test 划分: qrels/test.jsonl
- train 划分: qrels/train.jsonl

2. 配置: `corpus`

描述: 语料库文档集合。
特征:
- _id (string): 文档唯一标识符。
- title (string): 文档标题。
- text (string): 文档正文文本。
数据划分:
- corpus: 17,147 个示例。
数据文件:
- corpus 划分: corpus.jsonl