COSMOS Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://shivangi-aneja.github.io/projects/cosmos/
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了从新闻网站、博客以及社交媒体帖子中收集的20万张图片和45万条文本描述,旨在检测脱离上下文的图片和文本配对。该数据集专注于真实照片,涵盖了从各类新闻文章和事实核查来源抓取的图片,确保了脱离上下文和未脱离上下文的图片分布均衡。数据集规模为20万张训练图片和1700张测试图片,其任务是进行脱离上下文图片的检测。
提供机构:
Shivangi Aneja
搜集汇总
背景与挑战
背景概述
COSMOS Dataset是一个专注于检测图片与文本描述是否脱离上下文的数据集,包含从新闻网站、博客和社交媒体收集的20万张真实照片和45万条文本,确保正负样本分布均衡。其任务为进行脱离上下文图片的检测,规模包括20万张训练图片和1700张测试图片,旨在提升事实核查和内容验证能力。
以上内容由遇见数据集搜集并总结生成



