HuggingFaceM4/cm4-synthetic-testing-with-embeddings
收藏Hugging Face2023-10-03 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/HuggingFaceM4/cm4-synthetic-testing-with-embeddings
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
- config_name: 100.unique.embeddings
features:
- name: texts
sequence: string
- name: metadata
dtype: string
- name: original_idx
dtype: int64
- name: image_embeddings
sequence:
sequence:
sequence: float64
splits:
- name: train
num_bytes: 15422178
num_examples: 100
download_size: 15204174
dataset_size: 15422178
- config_name: 100.unique.pixels
features:
- name: texts
sequence: string
- name: images
sequence: image
- name: metadata
dtype: string
- name: original_idx
dtype: int64
splits:
- name: train
num_bytes: 7278379.0
num_examples: 100
download_size: 6801949
dataset_size: 7278379.0
configs:
- config_name: 100.unique.embeddings
data_files:
- split: train
path: 100.unique.embeddings/train-*
- config_name: 100.unique.pixels
data_files:
- split: train
path: 100.unique.pixels/train-*
---
# Dataset Card for "cm4-synthetic-testing-with-embeddings"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
数据集信息:
- 配置名称:100.unique.embeddings
字段信息:
- 字段名:texts,类型:字符串序列
- 字段名:metadata(元数据),数据类型:字符串
- 字段名:original_idx,数据类型:64位整型
- 字段名:image_embeddings(图像嵌入),类型:三层嵌套float64序列
数据划分:
- 划分名称:train(训练集),字节数:15422178,样本数:100
下载大小:15204174
数据集大小:15422178
- 配置名称:100.unique.pixels
字段信息:
- 字段名:texts,类型:字符串序列
- 字段名:images,类型:图像序列
- 字段名:metadata(元数据),数据类型:字符串
- 字段名:original_idx,数据类型:64位整型
数据划分:
- 划分名称:train(训练集),字节数:7278379.0,样本数:100
下载大小:6801949
数据集大小:7278379.0
配置项:
- 配置名称:100.unique.embeddings,数据文件:
- 数据划分:train(训练集),文件路径:100.unique.embeddings/train-*
- 配置名称:100.unique.pixels,数据文件:
- 数据划分:train(训练集),文件路径:100.unique.pixels/train-*
---
# 「cm4-synthetic-testing-with-embeddings」数据集卡片
[需补充更多信息](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
HuggingFaceM4
原始信息汇总
数据集概述
数据集配置
-
100.unique.embeddings
- 特征:
texts: 字符串序列metadata: 字符串original_idx: 64位整数image_embeddings: 64位浮点数序列的序列的序列
- 分割:
train: 100个样本,15422178字节
- 下载大小: 15204174字节
- 数据集大小: 15422178字节
- 特征:
-
100.unique.pixels
- 特征:
texts: 字符串序列images: 图像序列metadata: 字符串original_idx: 64位整数
- 分割:
train: 100个样本,7278379.0字节
- 下载大小: 6801949字节
- 数据集大小: 7278379.0字节
- 特征:
数据文件
-
100.unique.embeddings
train: 路径为100.unique.embeddings/train-*
-
100.unique.pixels
train: 路径为100.unique.pixels/train-*



