avsolatorio/mteb-amazon_massive_scenario-avs_triplets
收藏Hugging Face2024-02-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/avsolatorio/mteb-amazon_massive_scenario-avs_triplets
下载链接
链接失效反馈官方服务:
资源简介:
MTEB Amazon Massive Scenario Triplets数据集用于论文GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning。该数据集包含多个标签,如社交、交通、日历等,每个样本包含id、标签、标签文本、文本、索引、查询索引、正例索引和负例索引等特征。数据集分为训练集,包含11514个样本。
MTEB Amazon Massive Scenario Triplets数据集用于论文GISTEmbed: Guided In-sample Selection of Training Negatives for Text Embedding Fine-tuning。该数据集包含多个标签,如社交、交通、日历等,每个样本包含id、标签、标签文本、文本、索引、查询索引、正例索引和负例索引等特征。数据集分为训练集,包含11514个样本。
提供机构:
avsolatorio
原始信息汇总
MTEB Amazon Massive Scenario Triplets Dataset
数据集信息
特征
- id: 字符串类型
- label: 类别标签
- 类别名称:
- 0: social
- 1: transport
- 2: calendar
- 3: play
- 4: news
- 5: datetime
- 6: recommendation
- 7: email
- 8: iot
- 9: general
- 10: audio
- 11: lists
- 12: qa
- 13: cooking
- 14: takeaway
- 15: music
- 16: alarm
- 17: weather
- 类别名称:
- label_text: 字符串类型
- text: 字符串类型
- idx: 64位整数类型
- query_idx: 64位整数类型
- positive_idx: 64位整数类型
- negative_idx: 64位整数类型
数据分割
- train:
- 字节数: 1119338
- 样本数: 11514
数据大小
- 下载大小: 644764
- 数据集大小: 1119338
配置
- default:
- 数据文件:
- 分割: train
- 路径: data/train-*
- 数据文件:



