OpenGVLab/OmniCorpus-CC
收藏Hugging Face2025-03-20 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/OpenGVLab/OmniCorpus-CC
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含多个配置(如CC-MAIN-2013-20、CC-MAIN-2013-48等),每个配置包含通用元数据、图像、文本和元数据等特征。通用元数据包括域、流畅性概率、ID、非广告概率、政治概率、色情概率、毒性概率和URL等字段。图像和文本是字符串序列,而元数据包括美学概率、字节数、d_hash、d_hash重复计数、高度、img_url_sha、p_hash、p_hash重复计数、不安全概率和宽度等字段。每个配置都有一个训练集,包含指定的字节数和示例数。该数据集归类于图像到文本和视觉问答任务,大小在100M到1B之间,采用cc-by-4.0许可证。
This dataset is a multi-configuration image-to-text and visual question answering dataset, containing multiple configurations, each with different features and split information. The dataset features include general metadata, images, texts, and metadata, each with detailed field descriptions. The dataset is suitable for various tasks such as image-to-text generation and visual question answering.
提供机构:
OpenGVLab



