dreamlip_long_captions|图像描述数据集|多模态学习数据集

huggingface2024-08-26 更新2024-12-12 收录

图像描述

多模态学习

下载链接：

https://huggingface.co/datasets/qidouxiong619/dreamlip_long_captions

下载链接

链接失效反馈

资源简介：

DreamLIP-30M是一个包含约3000万图像注释的数据集，这些注释是详细的长期描述。与其他合成图像标题注释的精心策划风格不同，DreamLIP-30M利用预训练的多模态大型语言模型来获取平均长度为247的详细描述。这些详细描述是通过询问ShareGPT4V/InstructBLIP/LLava1.5模型“详细描述图像”的问题生成的。同时，我们还通过提示“用一句话描述图像”来提供生成的简短标题。详细的长期描述对答案的多样性影响很小，因此我们可以为每张图像获得全面的标题。

创建时间：

2024-08-24

原始信息汇总

数据集卡片 DreamLIP-30M

数据集描述

数据集概述

DreamLIP-Long-Captions 是一个包含约 30M 图像注释的数据集，即详细的长期描述。与其他合成图像标题注释的精选风格不同，DreamLIP-30M 利用预训练的多模态大型语言模型来获取平均长度为 247 的详细描述。更确切地说，详细的描述是通过向 ShareGPT4V/InstructBLIP/LLava1.5 提问“详细描述图像”而生成的。同时，我们还通过提示“用一句话描述图像”来提供生成的简短标题。详细长期描述的问题对答案的多样性影响很小，因此我们可以获得每个图像的全面描述。

附加信息

数据集策展人

Kecheng Zheng, Yifei Zhang, Wei Wu, Fan Lu, Shuailei Ma, Xin Jin, Wei Chen 和 Yujun Shen。

许可信息

我们根据标准的 Creative Common CC-BY-4.0 许可证分发带有长期描述的图像 URL。单个图像受其自身版权保护。

引用信息

bibtex @inproceedings{DreamLIP, title={DreamLIP: Language-Image Pre-training with Long Captions}, author={Zheng, Kecheng and Zhang, Yifei and Wu, Wei and Lu, Fan and Ma, Shuailei and Jin, Xin and Chen, Wei and Shen, Yujun}, booktitle={ECCV}, year={2024} }

AI搜集汇总

数据集介绍

构建方式

DreamLIP-Long-Captions数据集的构建基于多模态大语言模型的应用，通过预训练的模型如ShareGPT4V、InstructBLIP和LLava1.5生成详细的图像描述。具体方法是通过向这些模型提出“详细描述这张图片”的问题，从而获得平均长度为247个字符的详细描述。此外，数据集还提供了通过提示“用一句话描述这张图片”生成的简短描述。这种构建方式确保了描述的多样性和全面性。

特点

DreamLIP-Long-Captions数据集的特点在于其包含约3000万条图像注释，这些注释以详细的长描述为主，平均长度达到247个字符。与传统的合成图像注释相比，这些描述更为详尽和丰富，能够提供更全面的图像理解。数据集还提供了简短描述，增加了使用的灵活性。这种结构使得数据集在文本到图像生成和零样本分类等任务中具有广泛的应用潜力。

使用方法

DreamLIP-Long-Captions数据集的使用方法主要围绕其提供的详细和简短的图像描述。研究人员和开发者可以利用这些描述进行文本到图像的生成任务，或者用于训练和评估零样本分类模型。数据集的长描述特别适合于需要深度图像理解的应用场景，而简短描述则适用于快速图像标注和检索。通过结合使用这两种描述，可以更全面地探索图像与文本之间的关系。

背景与挑战

背景概述

DreamLIP-Long-Captions数据集由Kecheng Zheng等人于2024年创建，旨在通过大规模图像标注推动语言-图像预训练领域的研究。该数据集包含约3000万条图像标注，每条标注均为详细的长描述，平均长度达247个词。与传统的合成图像标注不同，DreamLIP-30M利用预训练的多模态大语言模型（如ShareGPT4V、InstructBLIP和LLava1.5）生成详细描述，显著提升了图像描述的丰富性和多样性。该数据集的研究成果已在ECCV 2024会议上发表，为图像理解、文本生成及多模态学习等任务提供了重要支持。

当前挑战

DreamLIP-Long-Captions数据集在构建过程中面临多重挑战。首先，生成高质量的长描述需要依赖先进的多模态大语言模型，这对计算资源和模型性能提出了极高要求。其次，确保描述的一致性和准确性是一个复杂问题，尤其是在处理大规模数据时，如何避免生成重复或冗余的描述成为关键难点。此外，数据集的使用场景主要集中在零样本分类和文本到图像生成任务中，如何在这些任务中充分发挥长描述的优势仍需进一步探索。最后，尽管数据集提供了丰富的标注信息，但其对图像版权问题的处理仍需谨慎，以确保数据的合法性和合规性。

常用场景

经典使用场景

DreamLIP-Long-Captions数据集在文本到图像生成领域具有广泛的应用。其核心价值在于提供了大量详细的图像描述，这些描述通过多模态大语言模型生成，平均长度达到247个字符。这种长描述不仅丰富了图像的内容表达，还为模型训练提供了更为细致的语义信息。在零样本分类任务中，该数据集能够帮助模型更好地理解图像与文本之间的复杂关系，从而提升分类的准确性。

实际应用

在实际应用中，DreamLIP-Long-Captions数据集为图像检索、自动图像标注、虚拟现实等场景提供了重要支持。例如，在图像检索系统中，详细的图像描述能够帮助用户更精准地找到所需图像；在虚拟现实领域，长描述可以为场景生成提供更为丰富的语义信息，从而提升用户体验。这些应用场景充分展示了该数据集的实际价值。

衍生相关工作

基于DreamLIP-Long-Captions数据集，研究者们开展了一系列经典工作。例如，利用该数据集进行多模态预训练，显著提升了模型在图像描述生成和零样本分类任务中的表现。此外，该数据集还启发了更多关于长描述生成的研究，推动了多模态大语言模型在图像理解领域的应用。这些工作不仅丰富了学术研究的成果，也为实际应用提供了更多可能性。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2024）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2024.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

lmarena-ai/arena-hard-auto-v0.1

--- license: apache-2.0 dataset_info: features: - name: question_id dtype: string - name: category dtype: string - name: cluster dtype: string - name: turns list: - name: content dtype: string splits: - name: train num_bytes: 251691 num_examples: 500 download_size: 154022 dataset_size: 251691 configs: - config_name: default data_files: - split: train path: data/train-* --- ## Arena-Hard-Auto **Arena-Hard-Auto-v0.1** ([See Paper](https://arxiv.org/abs/2406.11939)) is an automatic evaluation tool for instruction-tuned LLMs. It contains 500 challenging user queries sourced from Chatbot Arena. We prompt GPT-4-Turbo as judge to compare the models' responses against a baseline model (default: GPT-4-0314). Notably, Arena-Hard-Auto has the highest *correlation* and *separability* to Chatbot Arena among popular open-ended LLM benchmarks ([See Paper](https://arxiv.org/abs/2406.11939)). If you are curious to see how well your model might perform on Chatbot Arena, we recommend trying Arena-Hard-Auto. Please checkout our GitHub repo on how to evaluate models using Arena-Hard-Auto and more information about the benchmark. If you find this dataset useful, feel free to cite us! ``` @article{li2024crowdsourced, title={From Crowdsourced Data to High-Quality Benchmarks: Arena-Hard and BenchBuilder Pipeline}, author={Li, Tianle and Chiang, Wei-Lin and Frick, Evan and Dunlap, Lisa and Wu, Tianhao and Zhu, Banghua and Gonzalez, Joseph E and Stoica, Ion}, journal={arXiv preprint arXiv:2406.11939}, year={2024} } ```

hugging_face 收录

danaroth/icvl

ICVL是一个高光谱图像数据集，由Specim PS Kappa DX4高光谱相机和旋转平台进行空间扫描采集。数据集目前包含200张图像，并且会逐步增加。图像的空间分辨率为1392×1300，覆盖519个光谱波段（400-1000nm，间隔约1.25nm）。数据集提供了ENVI格式的原始数据和MAT格式的下采样数据（31个光谱通道，400-700nm，间隔10nm）。原始数据集仅包含干净的图像，用于高光谱图像去噪的测试数据来自另一篇论文。

hugging_face 收录

IMPC

**Abstract(s):** The International Mouse Phenotypic Consortium [(IMPC)](https://www.mousephenotype.org) is an international effort by 21 research institutions to identify the function of every protein-coding gene in the mouse genome. To achieve this, the IMPC is systematically switching off or ‘knocking out’ each of the roughly 20,000 genes that make up the mouse genome. Subsequently, the knock out mice undergo standardised physiological tests (phenotyping tests) across a range of biological systems in order to infer gene function. The overall aim of the project is not only to develop insight into the function of every gene, but also to provide transformative insights into the genetic basis of disease that will impact upon clinical diagnosis and management and ultimately prevent, detect, diagnose and treat disease. This published dataset is based on hundreds of E15.5 and E18.5 mouse models, all of which are homozygous knockouts, excluding the wildtype littermates.

DataCite Commons 收录

中国近海台风路径集合数据集(1945-2024)

1945-2024年度，中国近海台风路径数据集，包含每个台风的真实路径信息、台风强度、气压、中心风速、移动速度、移动方向。数据源为获取温州台风网(http://www.wztf121.com/)的真实观测路径数据，经过处理整合后形成文件，如使用csv文件需使用文本编辑器打开浏览，否则会出现乱码，如要使用excel查看数据，请使用xlsx的格式。

国家海洋科学数据中心收录