unicamp-dl/quati

Name: unicamp-dl/quati
Creator: unicamp-dl
Published: 2024-04-11 01:40:26
License: 暂无描述

Hugging Face2024-04-11 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/unicamp-dl/quati

下载链接

链接失效反馈

官方服务：

资源简介：

Quati数据集旨在支持巴西葡萄牙语（pt-br）信息检索系统的发展，提供了原始的pt-br文档段落以及由母语者创建的查询（主题）。数据集有两个版本：1M和10M，分别包含1百万和10百万个段落，并附带验证*qrels*用于系统评估。

The Quati dataset is designed to support the development of Brazilian Portuguese (pt-br) information retrieval systems, providing original pt-br document passages and queries (topics) created by native speakers. The dataset has two versions: 1M and 10M, which contain 1 million and 10 million passages respectively, and are accompanied by validation qrels for system evaluation.

提供机构：

unicamp-dl

原始信息汇总

Quati Information Retrieval Dataset 概述

数据集基本信息

名称: Quati Information Retrieval Dataset
语言: 巴西葡萄牙语 (pt-br)
大小: 1M<n<10M
许可: Creative Commons Attribution 4.0 International (CC BY 4.0)
任务类别: 问答

数据集内容

目标: 支持巴西葡萄牙语信息检索系统的发展。
内容: 包含由母语者创建的文档段落和查询（主题）。

数据集版本

1M版本: 包含100万个段落。
10M版本: 包含1000万个段落。

数据集使用

用途: 用于评估针对巴西葡萄牙语文档的信息检索系统。
扩展性: 数据集的创建和标注流程可用于进一步扩展段落标注或创建其他针对特定语言的IR数据集。

数据集获取

1M段落: python

quati_1M_passages = load_dataset("unicamp-dl/quati", "quati_1M_passages")
10M段落: python

quati_10M_all = load_dataset("unicamp-dl/quati", "quati_10M_passages")
qrels（相关性判断）: python

quati_1M_qrels = load_dataset("unicamp-dl/quati", "quati_1M_qrels") quati_10M_qrels = load_dataset("unicamp-dl/quati", "quati_10M_qrels")
主题: python

quati_all_topics = load_dataset("unicamp-dl/quati", "quati_all_topics") quati_test_topics = load_dataset("unicamp-dl/quati", "quati_test_topics")
完整数据集: 可通过克隆Hugging Face Hub上的git仓库获取。

git clone git@hf.co:datasets/unicamp-dl/quati quati_dataset

搜集汇总

数据集介绍

构建方式

在信息检索领域，构建高质量数据集对于推动语言特定模型的发展至关重要。Quati数据集专为巴西葡萄牙语信息检索系统设计，其构建过程严谨而系统。数据集的文档段落均源自巴西葡萄牙语原生内容，确保了语言的地道性和文化相关性。查询主题由母语者精心设计，覆盖了广泛的知识领域，从而保证了检索任务的多样性和实用性。为了提供评估基准，研究团队为两个版本的数据集分别标注了验证集，其中10M版本包含50个主题，每个查询平均关联97.78个段落；1M版本则平均关联38.66个段落，这些标注为信息检索系统的性能评估提供了可靠依据。

使用方法

利用Quati数据集进行巴西葡萄牙语信息检索研究，操作流程清晰便捷。研究者可通过Hugging Face的`load_dataset`函数直接加载数据，指定相应配置名即可获取不同规模的段落集合、查询主题以及关联标注。例如，加载`quati_1M_passages`可获取基础版本段落，而`quati_10M_passages_part_02`则允许分块下载大规模数据以管理存储开销。查询主题可通过`quati_all_topics`或`quati_test_topics`加载，关联标注则通过`quati_1M_qrels`或`quati_10M_qrels`获取。对于需要完整本地副本的研究者，可通过Git克隆整个数据集仓库。该数据集主要用于评估信息检索系统在巴西葡萄牙语文档上的性能，其构建流程亦可为创建其他语言特定数据集提供参考范式。

背景与挑战

背景概述

在信息检索领域，高质量数据集对于推动语言模型与检索系统的发展至关重要，尤其是在资源相对匮乏的葡萄牙语变种——巴西葡萄牙语中。Quati数据集由巴西坎皮纳斯大学的研究团队于2024年创建，旨在填补巴西葡萄牙语信息检索评估资源的空白。该数据集的核心研究问题聚焦于为巴西葡萄牙语构建大规模、高质量的文档段落与查询对，以支持检索模型的训练与评估。其影响力不仅体现在为葡萄牙语信息检索研究提供了基准数据，还通过开源标注流程为其他低资源语言的数据集构建提供了可复用的方法论框架。

当前挑战

Quati数据集面临的挑战主要体现在两个方面：其一，在领域问题层面，巴西葡萄牙语作为低资源语言，其信息检索任务常受限于语言特性差异、文化语境复杂性以及高质量标注数据的稀缺性，这导致模型在理解本地化表达与语义细微差别时存在困难；其二，在构建过程中，研究团队需处理大规模原始文本的清洗与去噪，确保文档段落的语义完整性与代表性，同时通过母语者设计自然且多样化的查询，并建立可靠的相关性标注机制，以保障数据集的权威性与评估效度。

常用场景

经典使用场景

在巴西葡萄牙语信息检索领域，Quati数据集为构建和评估检索系统提供了关键资源。其经典使用场景集中于模型训练与基准测试，研究者利用该数据集中的百万级文档段落和原生查询，能够系统性地训练检索模型，并通过验证集评估模型在真实语言环境下的性能。这种应用不仅推动了跨语言信息检索技术的发展，也为巴西葡萄牙语这一特定语言生态的数字化进程奠定了数据基础。

解决学术问题

Quati数据集有效解决了巴西葡萄牙语信息检索研究中数据稀缺的核心问题。传统上，该语言缺乏大规模、高质量的标注数据集，制约了检索模型的开发与评估。通过提供原生创建的文档段落和查询，Quati使得研究者能够深入探索语言特异性对检索效果的影响，并促进跨语言模型迁移、低资源语言处理等前沿学术议题的实证研究，填补了该领域的数据空白。

实际应用

在实际应用层面，Quati数据集支撑了面向巴西葡萄牙语用户的搜索引擎、智能问答系统及内容推荐平台的开发。例如，在公共服务、电子商务或教育领域，系统可借助该数据集优化对本地化查询的理解与响应，提升信息获取的准确性与效率。这种应用不仅增强了葡萄牙语数字服务的用户体验，也为企业和社会机构提供了可靠的技术基础设施。

数据集最近研究