five

lightonai/ms-marco-en-bge

收藏
Hugging Face2025-09-11 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/lightonai/ms-marco-en-bge
下载链接
链接失效反馈
官方服务:
资源简介:
ms-marco-en-bge数据集包含MS MARCO数据集中的文档和查询,并使用BGE-M3和bge-reranker-v2-m3进行相似性挖掘和评分。数据集分为三个部分:queries(查询)、documents(文档)和train(训练数据)。queries部分包含查询ID和查询文本,documents部分包含文档ID和文档文本,train部分包含查询ID、相关文档ID列表及其对应的分数。该数据集可用于通过知识蒸馏训练检索模型。

This dataset contains the MS MARCO dataset with documents similar to the query mined using BGE-M3 and then scored by bge-reranker-v2-m3. It can be used to train a retrieval model using knowledge distillation. The dataset is divided into three configurations: queries, documents, and train. Each configuration has different features and data files.
提供机构:
lightonai
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作