five

nixiesearch/bfhnd

收藏
Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/bfhnd
下载链接
链接失效反馈
官方服务:
资源简介:
BFHND: Big Hard Negatives Dataset是一个用于训练语义搜索嵌入模型的数据集。该数据集与nixietune兼容,包含查询、正面示例和负面示例。数据集的许可证为Apache 2.0,语言为英语,标签为文本,任务类别为句子相似性。数据集的来源是BeIR,大小类别为100K<n<1M。数据集的配置名称为default,特征包括查询、正面示例和负面示例,数据类型均为字符串。数据集的训练分割包含7240617个示例,大小为221539473625字节。

BFHND: Big Hard Negatives Dataset是一个用于训练语义搜索嵌入模型的数据集。该数据集与nixietune兼容,包含查询、正面示例和负面示例。数据集的许可证为Apache 2.0,语言为英语,标签为文本,任务类别为句子相似性。数据集的来源是BeIR,大小类别为100K<n<1M。数据集的配置名称为default,特征包括查询、正面示例和负面示例,数据类型均为字符串。数据集的训练分割包含7240617个示例,大小为221539473625字节。
提供机构:
nixiesearch
原始信息汇总

Big Hard Negatives Dataset

概述

  • 名称: BFHND: Big Hard Negatives Dataset
  • 语言: 英语
  • 许可证: Apache 2.0
  • 标签: 文本
  • 大小类别: 100K<n<1M
  • 源数据集: BeIR
  • 任务类别: 句子相似度

数据集信息

  • 配置名称: default
  • 特征:
    • query: 字符串类型
    • positive: 字符串序列
    • negative: 字符串序列
  • 分割:
    • train:
      • 字节数: 221539473625
      • 样本数: 7240617

训练评估索引

  • 配置: default
  • 任务: 句子相似度
  • 分割:
    • 训练分割: train

配置

  • 配置名称: default
  • 数据文件:
    • 分割: train
    • 路径: "data/train/*"
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作