five

nthakur/bge-full-data

收藏
Hugging Face2025-02-04 更新2025-02-15 收录
下载链接:
https://hf-mirror.com/datasets/nthakur/bge-full-data
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个转换为Tevatron格式的数据集,基于原始的`cfli/bge-full-data`。它包含了用于训练的15个检索划分,如sts、msmarco_passage、hotpotqa等。在数据集的后处理中,原始文档的全文被推送到`text`字段,而`title`字段则为空。由于原始文档或查询ID不可用,因此通过计算文本的MD5哈希来创建唯一的查询和文档ID。

This is a ported version of the original `cfli/bge-full-data` into Tevatron format containing 15 retrieval splits for training, such as sts, msmarco_passage, hotpotqa, etc. In the postprocessing of the dataset, the full text of the original document is pushed into the `text` field, while the `title` field is left empty. As the original document or query IDs were unavailable, unique query and document IDs are created by computing the MD5 hash of the text.
提供机构:
nthakur
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作