DataComp-12M-Images-256
收藏Hugging Face2025-12-05 更新2025-12-06 收录
下载链接:
https://huggingface.co/datasets/Alexator26/DataComp-12M-Images-256
下载链接
链接失效反馈官方服务:
资源简介:
翻译的[DataComp-12M](https://huggingface.co/datasets/mlfoundations/DataComp-12M)数据集。英文标题通过[GigaChat3-10B-A1.8B](https://huggingface.co/ai-sage/GigaChat3-10B-A1.8B)机器翻译成俄语。
该数据集为经翻译处理的DataComp-12M(https://huggingface.co/datasets/mlfoundations/DataComp-12M)数据集,其英文标题通过GigaChat3-10B-A1.8B(https://huggingface.co/ai-sage/GigaChat3-10B-A1.8B)模型机器翻译为俄语。
创建时间:
2025-11-27
原始信息汇总
DataComp-12M Translated 数据集概述
数据集基本信息
- 任务类别:图像到文本、文本到图像
- 支持语言:俄语、英语
- 数据规模:1M<n<10M
数据集描述
该数据集是 DataComp-12M 的翻译版本。原始英文标题已使用 GigaChat3-10B-A1.8B 机器翻译为俄语。
数据集统计信息
| 指标 | 数量 |
|---|---|
| 原始数据集样本数 | 12,561,027 |
| 成功下载样本数 | 8,744,177 (69.6%) |
| 下载失败样本数 | 3,497,631 (27.8%) |
| 调整大小失败样本数 | 319,219 (2.5%) |
数据文件构成
完整数据集
*.parquet文件:完整元数据(共1,257个文件,其中5个已损坏)*.tar文件:图像文件,已调整尺寸至256像素
损坏的Parquet文件
以下5个Parquet文件已损坏,应跳过:
00122.parquet00184.parquet00322.parquet00934.parquet00956.parquet
元数据列说明
| 列名 | 描述 |
|---|---|
text_en |
原始英文标题 |
caption |
俄语翻译标题 |
url |
图像URL |
key |
唯一标识符 |
status |
下载状态(success / failed_to_download / failed_to_resize) |
width / height |
图像尺寸 |
original_width / original_height |
原始图像尺寸 |
exif |
EXIF元数据(JSON格式) |
sha256 |
图像哈希值 |
搜集汇总
数据集介绍

构建方式
在跨模态学习领域,数据集的构建往往依赖于大规模图像与文本的精准对齐。DataComp-12M-Images-256数据集源于原始DataComp-12M资源,通过自动化流程对图像进行系统化采集与处理。首先,从互联网获取约1256万条图像-文本对,随后利用下载管道成功抓取874万余张图像,占比约69.6%,其余部分因网络或格式问题未能完整收录。图像均被统一缩放至256像素分辨率,并以tar格式归档存储,同时元数据以Parquet文件形式保存,其中包含原始英文描述、俄语机器翻译文本及图像技术参数,仅少数Parquet文件因损坏需排除使用。
特点
该数据集的核心特征体现在其跨语言与多模态的结构设计上。它不仅保留了原始的英文图像描述,还通过先进的GigaChat3-10B-A1.8B模型将文本自动翻译为俄语,从而构建了双语标注体系,支持跨语言图像-文本任务。数据集涵盖近875万张高质量图像,每张图像均附带详细的元数据,包括URL、唯一标识符、下载状态、图像尺寸及EXIF信息,确保了数据的可追溯性与丰富性。图像经统一预处理至256像素,兼顾了计算效率与视觉细节,为大规模多模态模型训练提供了标准化输入。
使用方法
在实践应用中,该数据集适用于图像到文本或文本到图像的跨模态学习任务。研究人员可通过加载Parquet文件访问完整的元数据,结合tar归档中的图像数据,构建训练或评估流水线。使用时应跳过已知损坏的五个Parquet文件,并依据status字段筛选成功下载的图像-文本对。数据集支持直接用于训练双语或多语言视觉-语言模型,例如对比学习或生成式任务,同时其结构化元数据便于进行数据质量分析或特定属性的过滤,为跨语言视觉理解研究提供了坚实的数据基础。
背景与挑战
背景概述
DataComp-12M-Images-256数据集源自DataComp项目,该项目由ML Foundations等研究机构推动,旨在构建大规模、高质量的图像-文本对数据集,以支持多模态人工智能模型的发展。该数据集的核心研究问题聚焦于跨语言视觉-语言表征学习,特别是针对俄语与英语的双语对齐任务。通过将原始DataComp-12M中的英文描述自动翻译为俄语,该数据集为跨语言检索、图像生成及多语言理解等任务提供了关键资源,显著促进了多语言环境下视觉与语言模型的泛化能力研究。
当前挑战
该数据集致力于解决多语言图像-文本对齐的领域挑战,包括跨语言语义一致性保持、文化语境适配以及低资源语言下的视觉概念对齐问题。在构建过程中,面临图像下载失败率较高(约27.8%)及部分元数据文件损坏的技术障碍,同时需确保机器翻译的准确性与图像尺寸统一化处理的效率,这些因素共同构成了数据集质量与规模平衡的实践难题。
常用场景
经典使用场景
在跨模态学习领域,DataComp-12M-Images-256数据集以其大规模图像-文本对资源,为视觉-语言模型的预训练提供了经典场景。该数据集包含数百万张图像及其对应的英文和俄文描述,广泛应用于图像到文本或文本到图像的生成与理解任务。研究者常利用其构建多语言对齐的视觉表征,通过对比学习或生成式方法,训练模型捕捉图像与文本之间的语义关联,从而推动跨语言视觉理解技术的发展。
实际应用
在实际应用中,DataComp-12M-Images-256数据集服务于多语言内容生成与检索系统,例如在电子商务或社交媒体平台中,实现基于俄文描述的图像搜索或自动标注功能。它还可用于开发辅助工具,如为视障用户提供多语言图像描述,或增强教育资源的可访问性。这些应用体现了数据集在促进技术普惠和跨文化交流方面的实用价值。
衍生相关工作
基于该数据集衍生的经典工作包括多语言视觉-语言预训练模型的优化研究,例如改进跨语言对比学习框架或探索翻译质量对模型鲁棒性的影响。相关研究还扩展至低资源视觉任务,如利用翻译数据增强模型在俄语环境下的性能,这些工作推动了跨模态学习领域的理论创新,并为后续大规模多语言数据集的构建提供了方法论参考。
以上内容由遇见数据集搜集并总结生成



