five

CoMM|多模态数据集数据集|文本与图像对齐数据集

收藏
arXiv2024-06-15 更新2024-06-19 收录
多模态数据集
文本与图像对齐
下载链接:
https://github.com/HKUST-LongGroup/CoMM
下载链接
链接失效反馈
资源简介:
CoMM是由香港科技大学和快手科技合作开发的高质量多模态数据集,专注于提升图像与文本交错内容的连贯性和一致性。该数据集从WikiHow等网站收集原始数据,通过多角度过滤策略,利用预训练模型确保文本和图像的高质量与语义对齐。CoMM旨在解决现有数据集在叙述连贯性、实体和风格一致性方面的不足,适用于多模态理解和生成任务,如视觉故事讲述和教程步骤生成。
提供机构:
香港科技大学
创建时间:
2024-06-15
AI搜集汇总
数据集介绍
main_image_url
构建方式
CoMM数据集通过从多个高质量来源(如WikiHow、eHow等)收集原始数据,专注于教学内容和视觉故事,确保了数据集的连贯性和一致性。为了进一步提升数据质量,研究团队设计了多视角过滤策略,包括文本序列过滤、图像序列过滤和图像-文本对齐过滤。这些过滤策略利用了预训练的大型语言模型(如Llama3)和视觉-语言模型(如CLIP),以确保文本的逻辑连贯性、图像的一致性以及图像与文本之间的语义对齐。
特点
CoMM数据集的主要特点在于其高连贯性和一致性,确保了生成的图像-文本序列在叙事、实体和风格上的一致性。此外,数据集通过多视角过滤策略,显著提升了数据质量,使其在文本发展、图像一致性和语义对齐方面表现出色。CoMM数据集还包含了丰富的图像和文本内容,适用于多种多模态任务,尤其是在长上下文场景中表现尤为突出。
使用方法
CoMM数据集可用于训练和评估多模态大语言模型(MLLMs),特别是在图像-文本生成和理解任务中。用户可以通过该数据集进行模型训练,以提升模型在生成连贯图像-文本序列、文本到图像生成、图像-文本内容续写等任务中的表现。此外,CoMM数据集还支持少样本学习实验,帮助模型在有限的训练数据下提升上下文理解能力。
背景与挑战
背景概述
CoMM数据集由香港科技大学、武汉大学和快手科技的研究团队联合开发,旨在解决多模态大语言模型(MLLMs)在生成连贯且上下文一致的图像-文本序列时面临的挑战。该数据集专注于交错图像-文本生成任务,通过从多样化的来源(如WikiHow等)收集高质量的原始数据,并采用多视角过滤策略,确保文本与图像之间的语义对齐和一致性。CoMM数据集的构建不仅提升了多模态内容的连贯性,还为MLLMs的上下文学习能力提供了强有力的支持,推动了多模态理解与生成领域的研究进展。
当前挑战
CoMM数据集在构建过程中面临的主要挑战包括:1)确保生成的图像-文本序列具有高度的叙事连贯性和实体一致性,这是现有数据集普遍存在的不足;2)在数据收集和过滤过程中,如何有效去除低质量内容,确保数据集的高质量。此外,CoMM数据集还需要解决图像与文本之间的语义对齐问题,避免生成内容与上下文脱节。这些挑战不仅涉及数据集的构建,还对多模态模型的训练和评估提出了更高的要求。
常用场景
经典使用场景
CoMM数据集的经典使用场景主要集中在多模态理解和生成任务中,特别是在生成连贯的图文交错内容方面。该数据集通过提供高质量的图文对,支持模型在生成过程中保持文本与图像之间的语义一致性和风格连贯性。例如,在视觉故事讲述、多模态指令生成和教程步骤生成等任务中,CoMM数据集能够显著提升模型的生成能力,使其生成的内容更加符合人类的表达习惯。
衍生相关工作
CoMM数据集的发布催生了一系列相关的经典工作,特别是在多模态生成模型的训练和评估方面。例如,基于CoMM数据集,研究者提出了多种新的多模态生成任务,如图像到文本的序列生成、文本到图像的序列生成、图文内容的续写等,并设计了相应的评估框架。此外,CoMM还推动了多模态大语言模型(MLLMs)的研究,特别是在上下文学习和多模态理解方面的进展。这些工作为多模态生成领域提供了新的研究方向和评估标准。
数据集最近研究
最新研究方向
CoMM数据集在多模态理解与生成领域的前沿研究方向主要集中在提升图像与文本之间的叙事连贯性、实体一致性和风格一致性。通过从高质量的来源(如WikiHow)收集数据,并采用多视角过滤策略,CoMM确保了数据集的高质量,从而显著提升了多模态大语言模型(MLLMs)的上下文学习能力。此外,CoMM引入了四个新的基准任务,包括图像到文本序列生成、文本到图像序列生成、交错图像文本内容续写和基于问题的交错图像文本生成,这些任务通过全面的评估框架进一步推动了MLLMs在多模态生成与理解方面的能力。CoMM的贡献不仅在于其高质量的数据集,还在于其为多模态生成任务设定了新的标准,为未来更先进的AI模型奠定了基础。
相关研究论文
  • 1
    CoMM: A Coherent Interleaved Image-Text Dataset for Multimodal Understanding and Generation香港科技大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

中国行政区划数据

本项目为中国行政区划数据,包括省级、地级、县级、乡级和村级五级行政区划数据。数据来源于国家统计局,存储格式为sqlite3 db文件,支持直接使用数据库连接工具打开。

github 收录

Breast-Caner-Detection Dataset

该数据集包含约5000张用于训练和验证的标记乳房X光图像,以及约1800张未标记的测试图像。所有图像均为(224,224,3)格式,标签从Density1到Density4,表示乳房密度的增加,并分为良性或恶性。

github 收录

RAVDESS

情感语音和歌曲 (RAVDESS) 的Ryerson视听数据库包含7,356个文件 (总大小: 24.8 GB)。该数据库包含24位专业演员 (12位女性,12位男性),以中性的北美口音发声两个词汇匹配的陈述。言语包括平静、快乐、悲伤、愤怒、恐惧、惊讶和厌恶的表情,歌曲则包含平静、快乐、悲伤、愤怒和恐惧的情绪。每个表达都是在两个情绪强度水平 (正常,强烈) 下产生的,另外还有一个中性表达。所有条件都有三种模态格式: 纯音频 (16位,48kHz .wav),音频-视频 (720p H.264,AAC 48kHz,.mp4) 和仅视频 (无声音)。注意,Actor_18没有歌曲文件。

OpenDataLab 收录

微博与抖音评论数据集

数据集源自微博平台与抖音平台的评论信息,基于两个热点事件来对评论等信息进行爬取收集形成数据集。原数据一共3W5条,但消极评论与中立评论远远大于积极评论。因此作特殊处理后,积极数据2601条,消极数据2367条,中立数据2725条,共7693条数据。

github 收录