five

Quati

收藏
arXiv2024-04-10 更新2024-06-21 收录
下载链接:
https://huggingface.co/datasets/unicamp-dl/quati
下载链接
链接失效反馈
官方服务:
资源简介:
Quati数据集是由巴西坎皮纳斯大学创建,专门为巴西葡萄牙语设计的信息检索数据集。该数据集包含由母语者制定的查询和从高质量巴西葡萄牙语网站精选的文档集合。数据集通过先进的LLM进行标注,以确保标注的一致性和准确性。Quati数据集旨在解决现有葡萄牙语信息检索数据集的不足,通过提供一个更具代表性和相关性的语料库,支持开发更有效的信息检索系统。

The Quati dataset was developed by the University of Campinas in Brazil as a specialized information retrieval dataset tailored for Brazilian Portuguese. It includes queries formulated by native speakers and a curated collection of documents selected from high-quality Brazilian Portuguese websites. The dataset is annotated with cutting-edge LLMs to guarantee the consistency and accuracy of the annotations. The Quati dataset aims to address the shortcomings of existing Portuguese-language information retrieval datasets, and supports the development of more effective information retrieval systems by providing a more representative and relevant corpus.
提供机构:
坎皮纳斯大学
创建时间:
2024-04-10
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作