five

unicamp-dl/quati|信息检索数据集|自然语言处理数据集

收藏
hugging_face2024-04-11 更新2024-04-19 收录
信息检索
自然语言处理
下载链接:
https://hf-mirror.com/datasets/unicamp-dl/quati
下载链接
链接失效反馈
资源简介:
Quati数据集旨在支持巴西葡萄牙语(pt-br)信息检索系统的发展,提供了原始的pt-br文档段落以及由母语者创建的查询(主题)。数据集有两个版本:1M和10M,分别包含1百万和10百万个段落,并附带验证*qrels*用于系统评估。
提供机构:
unicamp-dl
原始信息汇总

Quati Information Retrieval Dataset 概述

数据集基本信息

  • 名称: Quati Information Retrieval Dataset
  • 语言: 巴西葡萄牙语 (pt-br)
  • 大小: 1M<n<10M
  • 许可: Creative Commons Attribution 4.0 International (CC BY 4.0)
  • 任务类别: 问答

数据集内容

  • 目标: 支持巴西葡萄牙语信息检索系统的发展。
  • 内容: 包含由母语者创建的文档段落和查询(主题)。

数据集版本

  • 1M版本: 包含100万个段落。
  • 10M版本: 包含1000万个段落。

数据集使用

  • 用途: 用于评估针对巴西葡萄牙语文档的信息检索系统。
  • 扩展性: 数据集的创建和标注流程可用于进一步扩展段落标注或创建其他针对特定语言的IR数据集。

数据集获取

  • 1M段落: python

    quati_1M_passages = load_dataset("unicamp-dl/quati", "quati_1M_passages")

  • 10M段落: python

    quati_10M_all = load_dataset("unicamp-dl/quati", "quati_10M_passages")

  • qrels(相关性判断): python

    quati_1M_qrels = load_dataset("unicamp-dl/quati", "quati_1M_qrels") quati_10M_qrels = load_dataset("unicamp-dl/quati", "quati_10M_qrels")

  • 主题: python

    quati_all_topics = load_dataset("unicamp-dl/quati", "quati_all_topics") quati_test_topics = load_dataset("unicamp-dl/quati", "quati_test_topics")

  • 完整数据集: 可通过克隆Hugging Face Hub上的git仓库获取。

    git clone git@hf.co:datasets/unicamp-dl/quati quati_dataset

用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Yahoo Finance

Dataset About finance related to stock market

kaggle 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

FEVER

FEVER(Fact Extraction and VERification)数据集是一个用于事实验证任务的数据集,包含超过185,000个标注的声明,这些声明需要从维基百科中提取证据进行验证。数据集的目标是帮助开发和评估自动事实验证系统。

fever.ai 收录

NASA Battery Dataset

用于预测电池健康状态的数据集,由NASA提供。

github 收录