nixiesearch/amazon-esci
收藏Hugging Face2024-03-07 更新2024-06-22 收录
下载链接:
https://hf-mirror.com/datasets/nixiesearch/amazon-esci
下载链接
链接失效反馈官方服务:
资源简介:
Amazon ESCI数据集是一个用于句子相似性任务的数据集,包含查询、文档、否定样本和否定分数等特征。数据集分为训练集、测试集和一个较小的测试集(test_1k)。该数据集格式与nixietune兼容,并且可以直接通过HuggingFace的datasets库加载。该数据集是Amazon ESCI small-en数据集的扩展版本。
提供机构:
nixiesearch
原始信息汇总
Amazon ESCI 数据集
概述
- 语言: 英语
- 许可证: Apache 2.0
- 标签: 文本
- 名称: Amazon ESCI dataset in nixietune format
- 大小类别: 100K<n<1M
- 来源数据集: Amazon ESCI
- 任务类别: 句子相似度
数据集信息
- 配置名称: default
- 特征:
- query: 字符串
- doc: 字符串
- neg: 字符串序列
- negscore: 浮点数序列
分割
- 训练集:
- 字节数: 2734101179
- 样本数: 181819
- 测试集:
- 字节数: 1186871193
- 样本数: 79708
- 测试集_1k:
- 字节数: 16656546
- 样本数: 1000
训练-评估索引
- 配置: default
- 任务: 句子相似度
- 分割:
- 训练集: train
- 评估集: test
配置
- 配置名称: default
- 数据文件:
- 训练集: data/train/*
- 测试集: data/test/*
- 测试集_1k: data/test_1k/*



