BeastyZ/ConRetriever
收藏Hugging Face2024-06-28 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/BeastyZ/ConRetriever
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置,每个配置都包含查询、正面示例和负面示例。这些数据用于训练e5-R-mistral-7b模型。具体配置包括eli5、fever、fiqa、hotpot_qa、msmarco_passage、nq、quora_duplicate、squad、synthetic和triviaqa。每个配置的数据文件路径也已提供。
该数据集包含多个配置,每个配置都包含查询、正面示例和负面示例。这些数据用于训练e5-R-mistral-7b模型。具体配置包括eli5、fever、fiqa、hotpot_qa、msmarco_passage、nq、quora_duplicate、squad、synthetic和triviaqa。每个配置的数据文件路径也已提供。
提供机构:
BeastyZ
原始信息汇总
数据集概述
数据集配置
| 配置名称 | 特征 | 训练集信息 |
|---|---|---|
| eli5 | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 25298207<br>num_examples: 25000 |
| fever | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 461884567<br>num_examples: 71257 |
| fiqa | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 74970232<br>num_examples: 5500 |
| hotpot_qa | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 466370386<br>num_examples: 68657 |
| msmarco_passage | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 1469115771<br>num_examples: 400782 |
| nq | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 508591032<br>num_examples: 76923 |
| quora_duplicate | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 46431262<br>num_examples: 60000 |
| squad | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 1394419158<br>num_examples: 74377 |
| synthetic | query: string<br>positive: sequence<br>negative: sequence<br>instruction: string | num_bytes: 450333569<br>num_examples: 224791 |
| triviaqa | query: string<br>positive: sequence<br>negative: sequence | num_bytes: 375282874<br>num_examples: 52738 |
数据集文件路径
| 配置名称 | 训练数据文件路径 |
|---|---|
| eli5 | eli5/train-* |
| fever | fever/train-* |
| fiqa | fiqa/train-* |
| hotpot_qa | hotpot_qa/train-* |
| msmarco_passage | msmarco_passage/train-* |
| nq | nq/train-* |
| quora_duplicate | quora_duplicate/train-* |
| squad | squad/train-* |
| synthetic | synthetic/train-* |
| triviaqa | triviaqa/train-* |
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是一个用于信息检索或对比学习任务的英语文本数据集,包含超过100万行数据,涵盖多个子集如eli5、fever和msmarco_passage等。数据以parquet格式存储,总大小为3.04 GB,主要用于训练e5-R-mistral-7b模型,支持文本嵌入和检索任务。
以上内容由遇见数据集搜集并总结生成



