nixiesearch/amazon-esci-hardnegatives
收藏Hugging Face2023-12-29 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/amazon-esci-hardnegatives
下载链接
链接失效反馈官方服务:
资源简介:
Amazon ESCI Hard Negatives数据集是一个与nixietune兼容格式的数据集,它是Amazon ESCI small-en数据集的扩展版本。该数据集为所有查询生成了额外的32个负样本,负样本的生成使用了基于RRF的混合搜索方法,结合了BM25评分和基于intfloat/e5-base-v2嵌入模型的余弦相似度。数据集可以直接通过Hugging Face的datasets库加载。
Amazon ESCI Hard Negatives数据集是一个与nixietune兼容格式的数据集,它是Amazon ESCI small-en数据集的扩展版本。该数据集为所有查询生成了额外的32个负样本,负样本的生成使用了基于RRF的混合搜索方法,结合了BM25评分和基于intfloat/e5-base-v2嵌入模型的余弦相似度。数据集可以直接通过Hugging Face的datasets库加载。
提供机构:
nixiesearch
原始信息汇总
Amazon ESCI Hard Negatives 数据集
基本信息
- 语言: 英语
- 许可证: Apache 2.0
- 标签: 文本
- 数据集大小: 100K<n<1M
- 源数据集: Amazon ESCI
- 任务类别: 句子相似度
数据集配置
- 配置名称: default
- 特征:
- query: 字符串
- positive: 字符串序列
- negative: 字符串序列
数据分割
- 训练集:
- 字节数: 361711993
- 样本数: 74589
- 测试集:
- 字节数: 109820429
- 样本数: 22398
训练与评估索引
- 配置: default
- 任务: 句子相似度
- 分割:
- 训练分割: train
- 评估分割: test
配置详情
- 配置名称: default
- 数据文件:
- 训练集: data/train/*
- 测试集: data/test/*
数据集描述
- 该数据集是 Amazon ESCI small-en 数据集的扩展版本,包含以下新增内容:
- 所有查询额外生成了 32 个负样本
- 负样本生成基于 RRF 混合搜索,结合了 BM25 分数和基于 [intfloat/e5-base-v2] 嵌入模型的余弦相似度
- 可以直接使用 HF datasets 加载
使用示例
python from datasets import load_dataset
data = load_dataset(nixiesearch/amazon-esci-hardnegatives, split="train")



