nixiesearch/bfhnd
收藏Hugging Face2024-01-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/bfhnd
下载链接
链接失效反馈官方服务:
资源简介:
BFHND: Big Hard Negatives Dataset是一个用于训练语义搜索嵌入模型的数据集。该数据集与nixietune兼容,包含查询、正面示例和负面示例。数据集的许可证为Apache 2.0,语言为英语,标签为文本,任务类别为句子相似性。数据集的来源是BeIR,大小类别为100K<n<1M。数据集的配置名称为default,特征包括查询、正面示例和负面示例,数据类型均为字符串。数据集的训练分割包含7240617个示例,大小为221539473625字节。
BFHND: Big Hard Negatives Dataset是一个用于训练语义搜索嵌入模型的数据集。该数据集与nixietune兼容,包含查询、正面示例和负面示例。数据集的许可证为Apache 2.0,语言为英语,标签为文本,任务类别为句子相似性。数据集的来源是BeIR,大小类别为100K<n<1M。数据集的配置名称为default,特征包括查询、正面示例和负面示例,数据类型均为字符串。数据集的训练分割包含7240617个示例,大小为221539473625字节。
提供机构:
nixiesearch
原始信息汇总
Big Hard Negatives Dataset
概述
- 名称: BFHND: Big Hard Negatives Dataset
- 语言: 英语
- 许可证: Apache 2.0
- 标签: 文本
- 大小类别: 100K<n<1M
- 源数据集: BeIR
- 任务类别: 句子相似度
数据集信息
- 配置名称: default
- 特征:
- query: 字符串类型
- positive: 字符串序列
- negative: 字符串序列
- 分割:
- train:
- 字节数: 221539473625
- 样本数: 7240617
- train:
训练评估索引
- 配置: default
- 任务: 句子相似度
- 分割:
- 训练分割: train
配置
- 配置名称: default
- 数据文件:
- 分割: train
- 路径: "data/train/*"



