five

daruokta/t5-gemma-2-multimodal-embedding

收藏
Hugging Face2026-03-11 更新2026-03-29 收录
下载链接:
https://hf-mirror.com/datasets/daruokta/t5-gemma-2-multimodal-embedding
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: - config_name: classification features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 2969658 num_examples: 15244 download_size: 1551544 dataset_size: 2969658 - config_name: nli features: - name: premise dtype: string - name: hypothesis dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 4383335 num_examples: 22490 download_size: 2301963 dataset_size: 4383335 - config_name: parallel features: - name: anchor dtype: string - name: positive dtype: string splits: - name: train num_bytes: 217086524 num_examples: 1928223 download_size: 162919473 dataset_size: 217086524 - config_name: retrieval features: - name: anchor dtype: string - name: positive dtype: string splits: - name: train num_bytes: 31163429 num_examples: 49495 download_size: 19260935 dataset_size: 31163429 - config_name: sts features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: score dtype: float64 splits: - name: train num_bytes: 5014985 num_examples: 30000 download_size: 3097490 dataset_size: 5014985 - config_name: vision_retrieval features: - name: image dtype: image - name: caption dtype: string splits: - name: train num_bytes: 1282062922 num_examples: 16000 download_size: 1280007483 dataset_size: 1282062922 - config_name: vision_sts features: - name: image dtype: image - name: caption dtype: string - name: score dtype: float64 splits: - name: train num_bytes: 1597630059 num_examples: 18989 download_size: 1575050000 dataset_size: 1597630059 configs: - config_name: classification data_files: - split: train path: classification/train-* - config_name: nli data_files: - split: train path: nli/train-* - config_name: parallel data_files: - split: train path: parallel/train-* - config_name: retrieval data_files: - split: train path: retrieval/train-* - config_name: sts data_files: - split: train path: sts/train-* - config_name: vision_retrieval data_files: - split: train path: vision_retrieval/train-* - config_name: vision_sts data_files: - split: train path: vision_sts/train-* ---

数据集信息: 1. 配置名称:分类(classification) 特征项: - 名称:sentence1,数据类型:字符串(string) - 名称:sentence2,数据类型:字符串(string) - 名称:label,数据类型:64位整数(int64) 数据集划分: - 划分名称:训练集(train),占用字节数:2969658,样本总量:15244 下载大小:1551544,数据集总占用大小:2969658 2. 配置名称:自然语言推理(Natural Language Inference,NLI) 特征项: - 名称:前提句(premise),数据类型:字符串(string) - 名称:假设句(hypothesis),数据类型:字符串(string) - 名称:label,数据类型:64位整数(int64) 数据集划分: - 划分名称:训练集(train),占用字节数:4383335,样本总量:22490 下载大小:2301963,数据集总占用大小:4383335 3. 配置名称:平行语料(parallel) 特征项: - 名称:锚定句(anchor),数据类型:字符串(string) - 名称:正样本句(positive),数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:217086524,样本总量:1928223 下载大小:162919473,数据集总占用大小:217086524 4. 配置名称:检索(retrieval) 特征项: - 名称:锚定句(anchor),数据类型:字符串(string) - 名称:正样本句(positive),数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:31163429,样本总量:49495 下载大小:19260935,数据集总占用大小:31163429 5. 配置名称:语义文本相似度(Semantic Textual Similarity,STS) 特征项: - 名称:sentence1,数据类型:字符串(string) - 名称:sentence2,数据类型:字符串(string) - 名称:score,数据类型:64位浮点数(float64) 数据集划分: - 划分名称:训练集(train),占用字节数:5014985,样本总量:30000 下载大小:3097490,数据集总占用大小:5014985 6. 配置名称:视觉检索(vision_retrieval) 特征项: - 名称:图像(image),数据类型:图像类型 - 名称:图像标题(caption),数据类型:字符串(string) 数据集划分: - 划分名称:训练集(train),占用字节数:1282062922,样本总量:16000 下载大小:1280007483,数据集总占用大小:1282062922 7. 配置名称:视觉语义文本相似度(vision_sts) 特征项: - 名称:图像(image),数据类型:图像类型 - 名称:图像标题(caption),数据类型:字符串(string) - 名称:score,数据类型:64位浮点数(float64) 数据集划分: - 划分名称:训练集(train),占用字节数:1597630059,样本总量:18989 下载大小:1575050000,数据集总占用大小:1597630059 配置清单: - 配置名称:分类(classification),数据文件: - 划分:训练集(train),文件路径:classification/train-* - 配置名称:自然语言推理(Natural Language Inference,NLI),数据文件: - 划分:训练集(train),文件路径:nli/train-* - 配置名称:平行语料(parallel),数据文件: - 划分:训练集(train),文件路径:parallel/train-* - 配置名称:检索(retrieval),数据文件: - 划分:训练集(train),文件路径:retrieval/train-* - 配置名称:语义文本相似度(Semantic Textual Similarity,STS),数据文件: - 划分:训练集(train),文件路径:sts/train-* - 配置名称:视觉检索(vision_retrieval),数据文件: - 划分:训练集(train),文件路径:vision_retrieval/train-* - 配置名称:视觉语义文本相似度(vision_sts),数据文件: - 划分:训练集(train),文件路径:vision_sts/train-*
提供机构:
daruokta
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作