five

BeastyZ/ConRetriever

收藏
Hugging Face2024-06-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BeastyZ/ConRetriever
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含多个配置,每个配置都包含查询、正面示例和负面示例。这些数据用于训练e5-R-mistral-7b模型。具体配置包括eli5、fever、fiqa、hotpot_qa、msmarco_passage、nq、quora_duplicate、squad、synthetic和triviaqa。每个配置的数据文件路径也已提供。

该数据集包含多个配置,每个配置都包含查询、正面示例和负面示例。这些数据用于训练e5-R-mistral-7b模型。具体配置包括eli5、fever、fiqa、hotpot_qa、msmarco_passage、nq、quora_duplicate、squad、synthetic和triviaqa。每个配置的数据文件路径也已提供。
提供机构:
BeastyZ
原始信息汇总

数据集概述

数据集配置

配置名称 特征 训练集信息
eli5 query: string<br>positive: sequence<br>negative: sequence num_bytes: 25298207<br>num_examples: 25000
fever query: string<br>positive: sequence<br>negative: sequence num_bytes: 461884567<br>num_examples: 71257
fiqa query: string<br>positive: sequence<br>negative: sequence num_bytes: 74970232<br>num_examples: 5500
hotpot_qa query: string<br>positive: sequence<br>negative: sequence num_bytes: 466370386<br>num_examples: 68657
msmarco_passage query: string<br>positive: sequence<br>negative: sequence num_bytes: 1469115771<br>num_examples: 400782
nq query: string<br>positive: sequence<br>negative: sequence num_bytes: 508591032<br>num_examples: 76923
quora_duplicate query: string<br>positive: sequence<br>negative: sequence num_bytes: 46431262<br>num_examples: 60000
squad query: string<br>positive: sequence<br>negative: sequence num_bytes: 1394419158<br>num_examples: 74377
synthetic query: string<br>positive: sequence<br>negative: sequence<br>instruction: string num_bytes: 450333569<br>num_examples: 224791
triviaqa query: string<br>positive: sequence<br>negative: sequence num_bytes: 375282874<br>num_examples: 52738

数据集文件路径

配置名称 训练数据文件路径
eli5 eli5/train-*
fever fever/train-*
fiqa fiqa/train-*
hotpot_qa hotpot_qa/train-*
msmarco_passage msmarco_passage/train-*
nq nq/train-*
quora_duplicate quora_duplicate/train-*
squad squad/train-*
synthetic synthetic/train-*
triviaqa triviaqa/train-*
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个用于信息检索或对比学习任务的英语文本数据集,包含超过100万行数据,涵盖多个子集如eli5、fever和msmarco_passage等。数据以parquet格式存储,总大小为3.04 GB,主要用于训练e5-R-mistral-7b模型,支持文本嵌入和检索任务。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作