sentence-transformers/msmarco-hard-negatives
收藏Hugging Face2024-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/msmarco-hard-negatives
下载链接
链接失效反馈官方服务:
资源简介:
MS MARCO Passages Hard Negatives数据集是一个大规模信息检索语料库的负样本集,基于真实用户的Bing搜索查询创建。该数据集包含用于训练bi-encoder模型的文件,其中包括使用不同密集检索系统挖掘的针对每个查询的50个最相似段落的hard negatives。
The MS MARCO Passages Hard Negatives dataset is a set of hard negatives for a large-scale information retrieval corpus based on real user Bing search queries. This dataset includes files for training bi-encoder models, among which are the hard negatives mined from different dense retrieval systems for the top 50 most similar passages for each query.
提供机构:
sentence-transformers
原始信息汇总
MS MARCO Passages Hard Negatives 数据集概述
数据集描述
- 来源:基于Bing搜索引擎的真实用户搜索查询构建的MS MARCO信息检索数据集。
- 用途:用于训练bi-encoder模型,例如使用sentence-transformers框架。
数据集文件
-
cross-encoder-ms-marco-MiniLM-L-6-v2-scores.pkl.gz
- 格式:pickled字典
- 内容:包含1.6亿个(query, paragraph)对的cross-encoder评分,使用cross-encoder/ms-marco-MiniLM-L-6-v2模型。
-
msmarco-hard-negatives.jsonl.gz
-
格式:JSONL文件,每行一个JSON对象。
-
结构:
{"qid": 查询ID, "pos": [正例段落ID], "neg": {"系统名称": [负例段落ID]}}
-
内容:包含从多个系统(主要是密集检索系统)挖掘的硬负例,包括BM25和多种模型如msmarco-distilbert-base-tas-b等。每个系统为每个查询挖掘50个最相似的段落作为负例。
-



