TIGER-Lab/OBELICS-100K
收藏Hugging Face2024-05-16 更新2024-06-12 收录
下载链接:
https://hf-mirror.com/datasets/TIGER-Lab/OBELICS-100K
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: obelics_100k_multi
features:
- name: id
dtype: string
- name: images
list:
- name: bytes
dtype: binary
- name: path
dtype: string
- name: conversation
list:
- name: role
dtype: string
- name: content
dtype: string
- name: source
dtype: string
splits:
- name: train
num_bytes: 427340933
num_examples: 100766
download_size: 279349976
dataset_size: 427340933
- config_name: obelics_111k
features:
- name: id
dtype: string
- name: images
list:
- name: bytes
dtype: binary
- name: path
dtype: string
- name: conversation
list:
- name: role
dtype: string
- name: content
dtype: string
- name: source
dtype: string
splits:
- name: train
num_bytes: 401916815
num_examples: 111647
download_size: 263340341
dataset_size: 401916815
configs:
- config_name: obelics_100k_multi
data_files:
- split: train
path: obelics_100k_multi/train-*
- config_name: obelics_111k
data_files:
- split: train
path: obelics_111k/train-*
---
提供机构:
TIGER-Lab
原始信息汇总
数据集概述
数据集配置1: obelics_100k_multi
-
特征信息:
id: 数据类型为字符串。images: 列表类型,包含两个子特征:bytes: 数据类型为二进制。path: 数据类型为字符串。
conversation: 列表类型,包含两个子特征:role: 数据类型为字符串。content: 数据类型为字符串。
source: 数据类型为字符串。
-
数据分割:
train: 包含100766个样本,总大小为427340933字节。
-
下载大小: 279349976字节。
-
数据集总大小: 427340933字节。
数据集配置2: obelics_111k
-
特征信息:
id: 数据类型为字符串。images: 列表类型,包含两个子特征:bytes: 数据类型为二进制。path: 数据类型为字符串。
conversation: 列表类型,包含两个子特征:role: 数据类型为字符串。content: 数据类型为字符串。
source: 数据类型为字符串。
-
数据分割:
train: 包含111647个样本,总大小为401916815字节。
-
下载大小: 263340341字节。
-
数据集总大小: 401916815字节。



