imirandam/TROHN-Text
收藏Hugging Face2024-06-17 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/imirandam/TROHN-Text
下载链接
链接失效反馈官方服务:
资源简介:
TROHN-Text数据集是基于COCO 2017训练集创建的,主要用于训练对比模型,通过添加硬负样本来提高组合理解能力。数据集包含图像ID、描述文本和负描述文本三个字段,分为训练集和验证集两个部分。数据集的创建过程是半自动的,使用了OpenCHAT-3.5和模板,但实例可能包含错误或重复信息。
TROHN-Text数据集是基于COCO 2017训练集创建的,主要用于训练对比模型,通过添加硬负样本来提高组合理解能力。数据集包含图像ID、描述文本和负描述文本三个字段,分为训练集和验证集两个部分。数据集的创建过程是半自动的,使用了OpenCHAT-3.5和模板,但实例可能包含错误或重复信息。
提供机构:
imirandam
原始信息汇总
数据集概述
数据集特征
- image:图像数据类型。
- caption:文本数据类型,描述图像。
- negative_caption:文本数据类型,提供与图像不相关的描述。
数据集划分
- 训练集 (train):
- 样本数量:2922276
- 数据大小:473583255223.9931字节
- 验证集 (validation):
- 样本数量:730570
- 数据大小:117041872406.99683字节
数据集大小
- 下载大小:595872591941字节
- 数据集总大小:590625127630.99字节
数据文件配置
- 默认配置 (default):
- 训练集路径:
data/train-* - 验证集路径:
data/validation-*
- 训练集路径:



