five

COSMOS Dataset

收藏
arXiv2025-09-30 收录
下载链接:
https://shivangi-aneja.github.io/projects/cosmos/
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含了从新闻网站、博客以及社交媒体帖子中收集的20万张图片和45万条文本描述,旨在检测脱离上下文的图片和文本配对。该数据集专注于真实照片,涵盖了从各类新闻文章和事实核查来源抓取的图片,确保了脱离上下文和未脱离上下文的图片分布均衡。数据集规模为20万张训练图片和1700张测试图片,其任务是进行脱离上下文图片的检测。
提供机构:
Shivangi Aneja
搜集汇总
背景与挑战
背景概述
COSMOS Dataset是一个专注于检测图片与文本描述是否脱离上下文的数据集,包含从新闻网站、博客和社交媒体收集的20万张真实照片和45万条文本,确保正负样本分布均衡。其任务为进行脱离上下文图片的检测,规模包括20万张训练图片和1700张测试图片,旨在提升事实核查和内容验证能力。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作