five

sentence-transformers/msmarco-hard-negatives

收藏
Hugging Face2024-11-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/sentence-transformers/msmarco-hard-negatives
下载链接
链接失效反馈
官方服务:
资源简介:
MS MARCO Passages Hard Negatives数据集是一个大规模信息检索语料库的负样本集,基于真实用户的Bing搜索查询创建。该数据集包含用于训练bi-encoder模型的文件,其中包括使用不同密集检索系统挖掘的针对每个查询的50个最相似段落的hard negatives。

The MS MARCO Passages Hard Negatives dataset is a set of hard negatives for a large-scale information retrieval corpus based on real user Bing search queries. This dataset includes files for training bi-encoder models, among which are the hard negatives mined from different dense retrieval systems for the top 50 most similar passages for each query.
提供机构:
sentence-transformers
原始信息汇总

MS MARCO Passages Hard Negatives 数据集概述

数据集描述

  • 来源:基于Bing搜索引擎的真实用户搜索查询构建的MS MARCO信息检索数据集。
  • 用途:用于训练bi-encoder模型,例如使用sentence-transformers框架。

数据集文件

  1. cross-encoder-ms-marco-MiniLM-L-6-v2-scores.pkl.gz

    • 格式:pickled字典
    • 内容:包含1.6亿个(query, paragraph)对的cross-encoder评分,使用cross-encoder/ms-marco-MiniLM-L-6-v2模型。
  2. msmarco-hard-negatives.jsonl.gz

    • 格式:JSONL文件,每行一个JSON对象。

    • 结构

      {"qid": 查询ID, "pos": [正例段落ID], "neg": {"系统名称": [负例段落ID]}}

    • 内容:包含从多个系统(主要是密集检索系统)挖掘的硬负例,包括BM25和多种模型如msmarco-distilbert-base-tas-b等。每个系统为每个查询挖掘50个最相似的段落作为负例。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作