zeta-alpha-ai/NanoQuoraRetrieval
收藏Hugging Face2024-09-10 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/zeta-alpha-ai/NanoQuoraRetrieval
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
license: cc-by-4.0
multilinguality:
- monolingual
source_datasets:
- QuoraRetrieval
task_categories:
- text-retrieval
task_ids:
- document-retrieval
tags:
- text-retrieval
dataset_info:
- config_name: corpus
features:
- name: _id
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 346228
num_examples: 5046
download_size: 229172
dataset_size: 346228
- config_name: qrels
features:
- name: query-id
dtype: string
- name: corpus-id
dtype: string
splits:
- name: train
num_bytes: 1359
num_examples: 70
download_size: 2266
dataset_size: 1359
- config_name: queries
features:
- name: _id
dtype: string
- name: text
dtype: string
splits:
- name: train
num_bytes: 3087
num_examples: 50
download_size: 3918
dataset_size: 3087
configs:
- config_name: corpus
data_files:
- split: train
path: corpus/train-*
- config_name: qrels
data_files:
- split: train
path: qrels/train-*
- config_name: queries
data_files:
- split: train
path: queries/train-*
---
语言:
- 英语
许可协议:知识共享署名4.0(cc-by-4.0)
多语言属性:
- 单语言(monolingual)
源数据集:
- QuoraRetrieval
任务类别:
- 文本检索(text-retrieval)
任务子类别:
- 文档检索(document-retrieval)
标签:
- 文本检索
数据集信息:
- 配置名称:语料库(corpus)
特征:
- 名称:_id,数据类型:字符串
- 名称:text,数据类型:字符串
数据拆分:
- 拆分名称:训练集(train),字节数:346228,样本数量:5046
下载大小:229172
数据集总大小:346228
- 配置名称:查询相关性标注集(qrels)
特征:
- 名称:query-id,数据类型:字符串
- 名称:corpus-id,数据类型:字符串
数据拆分:
- 拆分名称:训练集,字节数:1359,样本数量:70
下载大小:2266
数据集总大小:1359
- 配置名称:查询集(queries)
特征:
- 名称:_id,数据类型:字符串
- 名称:text,数据类型:字符串
数据拆分:
- 拆分名称:训练集,字节数:3087,样本数量:50
下载大小:3918
数据集总大小:3087
配置项:
- 配置名称:语料库(corpus),数据文件:
- 拆分:训练集,路径:corpus/train-*
- 配置名称:查询相关性标注集(qrels),数据文件:
- 拆分:训练集,路径:qrels/train-*
- 配置名称:查询集(queries),数据文件:
- 拆分:训练集,路径:queries/train-*
提供机构:
zeta-alpha-ai



