nirantk/triplets
收藏Hugging Face2024-05-12 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/nirantk/triplets
下载链接
链接失效反馈官方服务:
资源简介:
该数据集是从Nomic Contrastors构建的,用于训练嵌入模型。所有(query, pos, neg)三元组都是唯一的,但有些(query, pos)对是重复的。`query_lang`属性是使用fasttext语言识别计算的。
该数据集是从Nomic Contrastors构建的,用于训练嵌入模型。所有(query, pos, neg)三元组都是唯一的,但有些(query, pos)对是重复的。`query_lang`属性是使用fasttext语言识别计算的。
提供机构:
nirantk
原始信息汇总
数据集概述
基本信息
- 语言: 英语(en)、意大利语(it)、德语(de)
- 许可证: CC-BY-NC-4.0
数据集特征
- query: 字符串类型
- pos: 字符串类型
- neg: 字符串类型
- query_lang: 字符串类型
- index_level_0: 整数类型(int64)
数据集划分
- 训练集(train):
- 数据量: 7288056个样本
- 存储大小: 5340253796字节
数据集大小
- 下载大小: 2279432455字节
- 数据集总大小: 5340253796字节
配置
- 默认配置(default):
- 训练数据路径:
data/train-*
- 训练数据路径:
任务类别
- 特征提取(feature-extraction)
数据集名称
- 美观名称: Nomic Triplets
数据集规模
- 规模范围: 1M<n<10M
标签
- 相关技术: sentence-transformers



