nielsr/datacomp_small_llamav2_classified_v2

Name: nielsr/datacomp_small_llamav2_classified_v2
Creator: nielsr
Published: 2023-08-13 15:57:12
License: 暂无描述

Hugging Face2023-08-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/nielsr/datacomp_small_llamav2_classified_v2

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含50,000个训练样本，每个样本包含多个特征，如唯一标识符（uid）、URL、文本内容（text）、原始图像的宽度和高度（original_width、original_height）、CLIP模型的两种相似性评分（clip_b32_similarity_score、clip_l14_similarity_score）、人脸边界框（face_bboxes）、SHA256哈希值（sha256）、检测到的语言（detected_language）和预测结果（prediction）。这些特征可能用于图像和文本的多模态分析，特别是与CLIP模型相关的相似性评分和语言检测。

提供机构：

nielsr

原始信息汇总

数据集卡片 "datacomp_small_llamav2_classified_v2"

配置

默认配置 (default)
- 数据文件:
  - 训练集 (train): data/train-*

数据集信息

特征

uid: 字符串 (string)
url: 字符串 (string)
text: 字符串 (string)
original_width: 64位整数 (int64)
original_height: 64位整数 (int64)
clip_b32_similarity_score: 32位浮点数 (float32)
clip_l14_similarity_score: 32位浮点数 (float32)
face_bboxes: 64位浮点数序列的序列 (sequence: float64)
sha256: 字符串 (string)
detected_language: 字符串 (string)
prediction: 字符串 (string)

分割

训练集 (train)
- 字节数: 16872545
- 样本数: 50000

大小

下载大小: 12935850
数据集大小: 16872545

5,000+

优质数据集

54 个

任务类型

进入经典数据集