five

nthakur/bge-retrieval-data

收藏
Hugging Face2025-03-12 更新2025-04-12 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/bge-retrieval-data
下载链接
链接失效反馈
官方服务:
资源简介:
BGE检索数据集包含7个子数据集,大约有678K个训练对。这些数据集主要用于句子相似度任务,支持英文。每个子数据集都有不同的训练对数量,以及正样本和硬负样本的比例。数据集的总大小为43,144,012,642.7字节,下载大小为6,653,360,727字节。

The BGE Retrieval Dataset consists of 7 subsets with approximately 678K training pairs. These datasets are primarily designed for sentence similarity tasks and support English language. Each subset has a different number of training pairs, along with the ratio of positive examples to hard negative examples. The total size of the dataset is 43,144,012,642.7 bytes, with a download size of 6,653,360,727 bytes.
提供机构:
nthakur
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作