MLLM-CL/UCIT
收藏Hugging Face2026-04-06 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/MLLM-CL/UCIT
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: ArxivQA
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: problem
dtype: string
- name: answer
dtype: string
- name: images
list: image
- name: _qid
dtype: string
splits:
- name: train
num_bytes: 7455000887
num_examples: 40000
- name: test
num_bytes: 567267668
num_examples: 3000
download_size: 8007449971
dataset_size: 8022268555
- config_name: CLEVR-Math
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: problem
dtype: string
- name: answer
dtype: string
- name: images
list: image
- name: _qid
dtype: string
splits:
- name: train
num_bytes: 7609649832
num_examples: 40000
- name: test
num_bytes: 570106039
num_examples: 3000
download_size: 8175296635
dataset_size: 8179755871
- config_name: Flickr30k
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: problem
dtype: string
- name: answer
dtype: string
- name: images
list: image
- name: _qid
dtype: string
splits:
- name: train
num_bytes: 5584530190
num_examples: 40000
- name: test
num_bytes: 405054400
num_examples: 3000
download_size: 5985058611
dataset_size: 5989584590
- config_name: IconQA
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: problem
dtype: string
- name: answer
dtype: string
- name: images
list: image
- name: _qid
dtype: string
splits:
- name: train
num_bytes: 348909196
num_examples: 29859
- name: test
num_bytes: 37067917
num_examples: 3000
download_size: 382012457
dataset_size: 385977113
- config_name: ImageNet-R
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: problem
dtype: string
- name: answer
dtype: string
- name: images
list: image
- name: _qid
dtype: string
splits:
- name: train
num_bytes: 1726218165
num_examples: 23998
- name: test
num_bytes: 226024639
num_examples: 3000
download_size: 1948956997
dataset_size: 1952242804
- config_name: VizWiz
features:
- name: conversations
list:
- name: from
dtype: string
- name: value
dtype: string
- name: problem
dtype: string
- name: answer
dtype: string
- name: images
list: image
- name: _qid
dtype: string
splits:
- name: train
num_bytes: 19202422946
num_examples: 40000
- name: test
num_bytes: 1462650769
num_examples: 3000
download_size: 20661694342
dataset_size: 20665073715
configs:
- config_name: ArxivQA
data_files:
- split: train
path: ArxivQA/train-*
- split: test
path: ArxivQA/test-*
- config_name: CLEVR-Math
data_files:
- split: train
path: CLEVR-Math/train-*
- split: test
path: CLEVR-Math/test-*
- config_name: Flickr30k
data_files:
- split: train
path: Flickr30k/train-*
- split: test
path: Flickr30k/test-*
- config_name: IconQA
data_files:
- split: train
path: IconQA/train-*
- split: test
path: IconQA/test-*
- config_name: ImageNet-R
data_files:
- split: train
path: ImageNet-R/train-*
- split: test
path: ImageNet-R/test-*
- config_name: VizWiz
data_files:
- split: train
path: VizWiz/train-*
- split: test
path: VizWiz/test-*
license: cc-by-nc-sa-4.0
language:
- en
---
Unofficial training-ready fork of [HaiyangGuo/UCIT](https://huggingface.co/datasets/HaiyangGuo/UCIT)
数据集信息:
- 配置名称:ArxivQA
特征:
- 特征:对话列表(conversations)
列表元素:
- 字段名:来源(from)
数据类型(dtype):字符串
- 字段名:取值(value)
数据类型(dtype):字符串
- 特征:问题(problem)
数据类型(dtype):字符串
- 特征:答案(answer)
数据类型(dtype):字符串
- 特征:图像列表(images)
元素类型:图像(image)
- 特征:问题ID(_qid)
数据类型(dtype):字符串
划分集:
- 名称:训练集(train)
字节大小:7455000887
样本数量:40000
- 名称:测试集(test)
字节大小:567267668
样本数量:3000
下载总大小:8007449971
数据集总存储大小:8022268555
- 配置名称:CLEVR-Math
特征:
- 特征:对话列表(conversations)
列表元素:
- 字段名:来源(from)
数据类型(dtype):字符串
- 字段名:取值(value)
数据类型(dtype):字符串
- 特征:问题(problem)
数据类型(dtype):字符串
- 特征:答案(answer)
数据类型(dtype):字符串
- 特征:图像列表(images)
元素类型:图像(image)
- 特征:问题ID(_qid)
数据类型(dtype):字符串
划分集:
- 名称:训练集(train)
字节大小:7609649832
样本数量:40000
- 名称:测试集(test)
字节大小:570106039
样本数量:3000
下载总大小:8175296635
数据集总存储大小:8179755871
- 配置名称:Flickr30k
特征:
- 特征:对话列表(conversations)
列表元素:
- 字段名:来源(from)
数据类型(dtype):字符串
- 字段名:取值(value)
数据类型(dtype):字符串
- 特征:问题(problem)
数据类型(dtype):字符串
- 特征:答案(answer)
数据类型(dtype):字符串
- 特征:图像列表(images)
元素类型:图像(image)
- 特征:问题ID(_qid)
数据类型(dtype):字符串
划分集:
- 名称:训练集(train)
字节大小:5584530190
样本数量:40000
- 名称:测试集(test)
字节大小:405054400
样本数量:3000
下载总大小:5985058611
数据集总存储大小:5989584590
- 配置名称:IconQA
特征:
- 特征:对话列表(conversations)
列表元素:
- 字段名:来源(from)
数据类型(dtype):字符串
- 字段名:取值(value)
数据类型(dtype):字符串
- 特征:问题(problem)
数据类型(dtype):字符串
- 特征:答案(answer)
数据类型(dtype):字符串
- 特征:图像列表(images)
元素类型:图像(image)
- 特征:问题ID(_qid)
数据类型(dtype):字符串
划分集:
- 名称:训练集(train)
字节大小:348909196
样本数量:29859
- 名称:测试集(test)
字节大小:37067917
样本数量:3000
下载总大小:382012457
数据集总存储大小:385977113
- 配置名称:ImageNet-R
特征:
- 特征:对话列表(conversations)
列表元素:
- 字段名:来源(from)
数据类型(dtype):字符串
- 字段名:取值(value)
数据类型(dtype):字符串
- 特征:问题(problem)
数据类型(dtype):字符串
- 特征:答案(answer)
数据类型(dtype):字符串
- 特征:图像列表(images)
元素类型:图像(image)
- 特征:问题ID(_qid)
数据类型(dtype):字符串
划分集:
- 名称:训练集(train)
字节大小:1726218165
样本数量:23998
- 名称:测试集(test)
字节大小:226024639
样本数量:3000
下载总大小:1948956997
数据集总存储大小:1952242804
- 配置名称:VizWiz
特征:
- 特征:对话列表(conversations)
列表元素:
- 字段名:来源(from)
数据类型(dtype):字符串
- 字段名:取值(value)
数据类型(dtype):字符串
- 特征:问题(problem)
数据类型(dtype):字符串
- 特征:答案(answer)
数据类型(dtype):字符串
- 特征:图像列表(images)
元素类型:图像(image)
- 特征:问题ID(_qid)
数据类型(dtype):字符串
划分集:
- 名称:训练集(train)
字节大小:19202422946
样本数量:40000
- 名称:测试集(test)
字节大小:1462650769
样本数量:3000
下载总大小:20661694342
数据集总存储大小:20665073715
数据集配置:
- 配置名称:ArxivQA
数据文件:
- 划分集:训练集
路径:ArxivQA/train-*
- 划分集:测试集
路径:ArxivQA/test-*
- 配置名称:CLEVR-Math
数据文件:
- 划分集:训练集
路径:CLEVR-Math/train-*
- 划分集:测试集
路径:CLEVR-Math/test-*
- 配置名称:Flickr30k
数据文件:
- 划分集:训练集
路径:Flickr30k/train-*
- 划分集:测试集
路径:Flickr30k/test-*
- 配置名称:IconQA
数据文件:
- 划分集:训练集
路径:IconQA/train-*
- 划分集:测试集
路径:IconQA/test-*
- 配置名称:ImageNet-R
数据文件:
- 划分集:训练集
路径:ImageNet-R/train-*
- 划分集:测试集
路径:ImageNet-R/test-*
- 配置名称:VizWiz
数据文件:
- 划分集:训练集
路径:VizWiz/train-*
- 划分集:测试集
路径:VizWiz/test-*
许可证:知识共享署名-非商业性使用-相同方式共享4.0协议(cc-by-nc-sa-4.0)
语言:英语(en)
本仓库为[HaiyangGuo/UCIT](https://huggingface.co/datasets/HaiyangGuo/UCIT)的非官方可直接用于训练的分支
提供机构:
MLLM-CL



