daruokta/t5-gemma-2-multimodal-embedding
收藏Hugging Face2026-03-11 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/daruokta/t5-gemma-2-multimodal-embedding
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: classification
features:
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 2969658
num_examples: 15244
download_size: 1551544
dataset_size: 2969658
- config_name: nli
features:
- name: premise
dtype: string
- name: hypothesis
dtype: string
- name: label
dtype: int64
splits:
- name: train
num_bytes: 4383335
num_examples: 22490
download_size: 2301963
dataset_size: 4383335
- config_name: parallel
features:
- name: anchor
dtype: string
- name: positive
dtype: string
splits:
- name: train
num_bytes: 217086524
num_examples: 1928223
download_size: 162919473
dataset_size: 217086524
- config_name: retrieval
features:
- name: anchor
dtype: string
- name: positive
dtype: string
splits:
- name: train
num_bytes: 31163429
num_examples: 49495
download_size: 19260935
dataset_size: 31163429
- config_name: sts
features:
- name: sentence1
dtype: string
- name: sentence2
dtype: string
- name: score
dtype: float64
splits:
- name: train
num_bytes: 5014985
num_examples: 30000
download_size: 3097490
dataset_size: 5014985
- config_name: vision_retrieval
features:
- name: image
dtype: image
- name: caption
dtype: string
splits:
- name: train
num_bytes: 1282062922
num_examples: 16000
download_size: 1280007483
dataset_size: 1282062922
- config_name: vision_sts
features:
- name: image
dtype: image
- name: caption
dtype: string
- name: score
dtype: float64
splits:
- name: train
num_bytes: 1597630059
num_examples: 18989
download_size: 1575050000
dataset_size: 1597630059
configs:
- config_name: classification
data_files:
- split: train
path: classification/train-*
- config_name: nli
data_files:
- split: train
path: nli/train-*
- config_name: parallel
data_files:
- split: train
path: parallel/train-*
- config_name: retrieval
data_files:
- split: train
path: retrieval/train-*
- config_name: sts
data_files:
- split: train
path: sts/train-*
- config_name: vision_retrieval
data_files:
- split: train
path: vision_retrieval/train-*
- config_name: vision_sts
data_files:
- split: train
path: vision_sts/train-*
---
数据集信息:
1. 配置名称:分类(classification)
特征项:
- 名称:sentence1,数据类型:字符串(string)
- 名称:sentence2,数据类型:字符串(string)
- 名称:label,数据类型:64位整数(int64)
数据集划分:
- 划分名称:训练集(train),占用字节数:2969658,样本总量:15244
下载大小:1551544,数据集总占用大小:2969658
2. 配置名称:自然语言推理(Natural Language Inference,NLI)
特征项:
- 名称:前提句(premise),数据类型:字符串(string)
- 名称:假设句(hypothesis),数据类型:字符串(string)
- 名称:label,数据类型:64位整数(int64)
数据集划分:
- 划分名称:训练集(train),占用字节数:4383335,样本总量:22490
下载大小:2301963,数据集总占用大小:4383335
3. 配置名称:平行语料(parallel)
特征项:
- 名称:锚定句(anchor),数据类型:字符串(string)
- 名称:正样本句(positive),数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:217086524,样本总量:1928223
下载大小:162919473,数据集总占用大小:217086524
4. 配置名称:检索(retrieval)
特征项:
- 名称:锚定句(anchor),数据类型:字符串(string)
- 名称:正样本句(positive),数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:31163429,样本总量:49495
下载大小:19260935,数据集总占用大小:31163429
5. 配置名称:语义文本相似度(Semantic Textual Similarity,STS)
特征项:
- 名称:sentence1,数据类型:字符串(string)
- 名称:sentence2,数据类型:字符串(string)
- 名称:score,数据类型:64位浮点数(float64)
数据集划分:
- 划分名称:训练集(train),占用字节数:5014985,样本总量:30000
下载大小:3097490,数据集总占用大小:5014985
6. 配置名称:视觉检索(vision_retrieval)
特征项:
- 名称:图像(image),数据类型:图像类型
- 名称:图像标题(caption),数据类型:字符串(string)
数据集划分:
- 划分名称:训练集(train),占用字节数:1282062922,样本总量:16000
下载大小:1280007483,数据集总占用大小:1282062922
7. 配置名称:视觉语义文本相似度(vision_sts)
特征项:
- 名称:图像(image),数据类型:图像类型
- 名称:图像标题(caption),数据类型:字符串(string)
- 名称:score,数据类型:64位浮点数(float64)
数据集划分:
- 划分名称:训练集(train),占用字节数:1597630059,样本总量:18989
下载大小:1575050000,数据集总占用大小:1597630059
配置清单:
- 配置名称:分类(classification),数据文件:
- 划分:训练集(train),文件路径:classification/train-*
- 配置名称:自然语言推理(Natural Language Inference,NLI),数据文件:
- 划分:训练集(train),文件路径:nli/train-*
- 配置名称:平行语料(parallel),数据文件:
- 划分:训练集(train),文件路径:parallel/train-*
- 配置名称:检索(retrieval),数据文件:
- 划分:训练集(train),文件路径:retrieval/train-*
- 配置名称:语义文本相似度(Semantic Textual Similarity,STS),数据文件:
- 划分:训练集(train),文件路径:sts/train-*
- 配置名称:视觉检索(vision_retrieval),数据文件:
- 划分:训练集(train),文件路径:vision_retrieval/train-*
- 配置名称:视觉语义文本相似度(vision_sts),数据文件:
- 划分:训练集(train),文件路径:vision_sts/train-*
提供机构:
daruokta



