daruokta/t5-gemma-2-multimodal-embedding

Name: daruokta/t5-gemma-2-multimodal-embedding
Creator: daruokta
Published: 2026-03-11 17:11:43
License: 暂无描述

Hugging Face2026-03-11 更新2026-03-29 收录

下载链接：

https://hf-mirror.com/datasets/daruokta/t5-gemma-2-multimodal-embedding

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: classification features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 2969658 num_examples: 15244 download_size: 1551544 dataset_size: 2969658 - config_name: nli features: - name: premise dtype: string - name: hypothesis dtype: string - name: label dtype: int64 splits: - name: train num_bytes: 4383335 num_examples: 22490 download_size: 2301963 dataset_size: 4383335 - config_name: parallel features: - name: anchor dtype: string - name: positive dtype: string splits: - name: train num_bytes: 217086524 num_examples: 1928223 download_size: 162919473 dataset_size: 217086524 - config_name: retrieval features: - name: anchor dtype: string - name: positive dtype: string splits: - name: train num_bytes: 31163429 num_examples: 49495 download_size: 19260935 dataset_size: 31163429 - config_name: sts features: - name: sentence1 dtype: string - name: sentence2 dtype: string - name: score dtype: float64 splits: - name: train num_bytes: 5014985 num_examples: 30000 download_size: 3097490 dataset_size: 5014985 - config_name: vision_retrieval features: - name: image dtype: image - name: caption dtype: string splits: - name: train num_bytes: 1282062922 num_examples: 16000 download_size: 1280007483 dataset_size: 1282062922 - config_name: vision_sts features: - name: image dtype: image - name: caption dtype: string - name: score dtype: float64 splits: - name: train num_bytes: 1597630059 num_examples: 18989 download_size: 1575050000 dataset_size: 1597630059 configs: - config_name: classification data_files: - split: train path: classification/train-* - config_name: nli data_files: - split: train path: nli/train-* - config_name: parallel data_files: - split: train path: parallel/train-* - config_name: retrieval data_files: - split: train path: retrieval/train-* - config_name: sts data_files: - split: train path: sts/train-* - config_name: vision_retrieval data_files: - split: train path: vision_retrieval/train-* - config_name: vision_sts data_files: - split: train path: vision_sts/train-* ---

数据集信息： 1. 配置名称：分类（classification）特征项： - 名称：sentence1，数据类型：字符串（string） - 名称：sentence2，数据类型：字符串（string） - 名称：label，数据类型：64位整数（int64）数据集划分： - 划分名称：训练集（train），占用字节数：2969658，样本总量：15244 下载大小：1551544，数据集总占用大小：2969658 2. 配置名称：自然语言推理（Natural Language Inference，NLI）特征项： - 名称：前提句（premise），数据类型：字符串（string） - 名称：假设句（hypothesis），数据类型：字符串（string） - 名称：label，数据类型：64位整数（int64）数据集划分： - 划分名称：训练集（train），占用字节数：4383335，样本总量：22490 下载大小：2301963，数据集总占用大小：4383335 3. 配置名称：平行语料（parallel）特征项： - 名称：锚定句（anchor），数据类型：字符串（string） - 名称：正样本句（positive），数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：217086524，样本总量：1928223 下载大小：162919473，数据集总占用大小：217086524 4. 配置名称：检索（retrieval）特征项： - 名称：锚定句（anchor），数据类型：字符串（string） - 名称：正样本句（positive），数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：31163429，样本总量：49495 下载大小：19260935，数据集总占用大小：31163429 5. 配置名称：语义文本相似度（Semantic Textual Similarity，STS）特征项： - 名称：sentence1，数据类型：字符串（string） - 名称：sentence2，数据类型：字符串（string） - 名称：score，数据类型：64位浮点数（float64）数据集划分： - 划分名称：训练集（train），占用字节数：5014985，样本总量：30000 下载大小：3097490，数据集总占用大小：5014985 6. 配置名称：视觉检索（vision_retrieval）特征项： - 名称：图像（image），数据类型：图像类型 - 名称：图像标题（caption），数据类型：字符串（string）数据集划分： - 划分名称：训练集（train），占用字节数：1282062922，样本总量：16000 下载大小：1280007483，数据集总占用大小：1282062922 7. 配置名称：视觉语义文本相似度（vision_sts）特征项： - 名称：图像（image），数据类型：图像类型 - 名称：图像标题（caption），数据类型：字符串（string） - 名称：score，数据类型：64位浮点数（float64）数据集划分： - 划分名称：训练集（train），占用字节数：1597630059，样本总量：18989 下载大小：1575050000，数据集总占用大小：1597630059 配置清单： - 配置名称：分类（classification），数据文件： - 划分：训练集（train），文件路径：classification/train-* - 配置名称：自然语言推理（Natural Language Inference，NLI），数据文件： - 划分：训练集（train），文件路径：nli/train-* - 配置名称：平行语料（parallel），数据文件： - 划分：训练集（train），文件路径：parallel/train-* - 配置名称：检索（retrieval），数据文件： - 划分：训练集（train），文件路径：retrieval/train-* - 配置名称：语义文本相似度（Semantic Textual Similarity，STS），数据文件： - 划分：训练集（train），文件路径：sts/train-* - 配置名称：视觉检索（vision_retrieval），数据文件： - 划分：训练集（train），文件路径：vision_retrieval/train-* - 配置名称：视觉语义文本相似度（vision_sts），数据文件： - 划分：训练集（train），文件路径：vision_sts/train-*

提供机构：

daruokta

5,000+

优质数据集

54 个

任务类型

进入经典数据集