five

SynthScars|医学图像分析数据集|图像分割数据集

收藏
arXiv2025-03-19 更新2025-03-21 收录
医学图像分析
图像分割
下载链接:
https://opendatalab.github.io/LEGION
下载链接
链接失效反馈
资源简介:
SynthScars数据集由上海人工智能实验室推出,包含12236张完全合成的图像,由人类专家进行注释。该数据集具有四种不同的图像内容类型,三种 artifacts 类别,并具有像素级别的分割、详细的文本解释和 artifacts 类别标签的细粒度注释。
提供机构:
上海交通大学, 上海人工智能实验室, 北京航空航天大学, 中山大学, 依图科技
创建时间:
2025-03-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
SynthScars数据集的构建过程经过精心设计,以确保其高质量和多样性。首先,研究人员从多个公开数据集中收集样本,并通过预训练的ResNet-50模型进行特征聚类,以确保数据集的多样性和平衡性。随后,使用Qwen2VL-72B-Instruct模型进行多阶段过滤,剔除低质量、非真实感或具有明显合成痕迹的图像。为了确保注释的精确性,数据集采用了不规则多边形掩码进行像素级标注,并结合详细的文本解释和类别标签,涵盖了物理、失真和结构三类异常。这种双层次的注释方法显著提升了数据集的实用性和研究价值。
特点
SynthScars数据集的特点在于其多样性和高质量。它包含12,236张完全合成的图像,涵盖了人类、物体、动物和场景四种内容类型。每张图像都配备了像素级的分割掩码、详细的文本解释以及异常类别标签,提供了丰富的多层次信息。此外,数据集的异常类型分为物理、失真和结构三类,涵盖了从光学错误到物体变形的多种复杂情况。这种细粒度的标注方式使得SynthScars成为当前合成图像检测领域中最具挑战性和实用性的数据集之一。
使用方法
SynthScars数据集的使用方法主要集中在合成图像检测和异常定位任务上。研究人员可以利用其像素级掩码和文本解释进行模型训练,以提升检测和定位的精度。此外,数据集还可用于评估模型在复杂场景下的泛化能力。通过结合LEGION框架,用户不仅可以进行异常检测和解释生成,还可以将其作为控制器,指导图像生成模型生成更高质量的图像。具体而言,LEGION通过迭代优化提示词或基于掩码的区域修复,逐步减少图像中的异常区域,从而提升生成图像的真实感和质量。
背景与挑战
背景概述
随着生成技术的快速发展,合成图像检测成为一个日益重要的研究领域。SynthScars数据集由上海交通大学、上海人工智能实验室等机构的研究团队于2025年提出,旨在解决现有合成图像检测数据集中的诸多不足。该数据集包含12,236张高质量合成图像,涵盖四种不同的图像内容类型,并提供了像素级分割、详细文本解释和伪影类别标签等多层次注释。SynthScars的提出不仅为合成图像检测提供了更具挑战性的基准,还推动了多模态大语言模型(MLLM)在图像伪造分析中的应用。该数据集的研究背景与生成技术的双重性密切相关,既关注生成技术带来的社会风险,也探索其在图像生成优化中的潜力。
当前挑战
SynthScars数据集面临的挑战主要体现在两个方面。首先,在领域问题层面,现有合成图像检测方法往往局限于局部伪影的识别,难以应对全局推理需求,如光照和阴影的物理规律违反等复杂伪影。此外,现有数据集大多基于过时的生成器,生成的图像质量较低,且缺乏细粒度的注释,导致模型在实际应用中泛化能力不足。其次,在构建过程中,SynthScars团队面临了数据质量控制和注释精度提升的双重挑战。为了确保数据集的多样性和真实性,研究团队采用了多阶段过滤流程,并使用不规则多边形掩码进行伪影标注,以精确捕捉复杂伪影的边界。这些挑战的克服为合成图像检测领域提供了新的研究方向和技术突破。
常用场景
经典使用场景
SynthScars数据集在合成图像检测领域具有广泛的应用场景,尤其是在多模态大语言模型(MLLM)驱动的图像伪造分析框架中。该数据集通过提供高质量的合成图像和细粒度的注释,支持从像素级分割到详细文本解释的多任务分析。其经典使用场景包括合成图像的伪造检测、伪影定位以及生成解释性文本,帮助研究人员深入理解合成图像中的异常特征。
实际应用
在实际应用中,SynthScars数据集被广泛用于开发高效的合成图像检测工具,特别是在社交媒体内容审核、数字取证和版权保护等领域。通过结合LEGION框架,该数据集不仅能够检测和定位伪造图像中的伪影,还能为图像生成模型提供反馈,指导生成更高质量和更逼真的图像。这种双重功能使其在图像生成技术的可控发展中发挥了重要作用。
衍生相关工作
SynthScars数据集的发布推动了多个相关领域的研究进展。基于该数据集,研究人员开发了LEGION框架,该框架不仅在合成图像检测任务中表现出色,还被扩展为图像生成的控制工具。此外,SynthScars还启发了其他研究工作,如基于多模态大语言模型的图像伪造分析、图像修复和生成优化等。这些衍生工作进一步拓展了合成图像检测技术的应用边界,并为生成式AI的伦理使用提供了新的思路。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

中国1km分辨率逐月降水量数据集(1901-2024)

该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心 收录

United Nations Commodity Trade Statistics Database (UN Comtrade)

联合国商品贸易统计数据库(UN Comtrade)是一个全球性的贸易数据资源,涵盖了1962年至今的商品贸易数据。该数据库提供了详细的进出口统计数据,包括商品的分类、数量、价值等信息,覆盖了全球200多个国家和地区的贸易活动。数据按月更新,支持多种查询和分析功能。

comtrade.un.org 收录

实时天气预报-全国天气预报查询-天气查询-天气api接口-天气预警-天气预报查询-天气预报

天气查询API提供全球城市精准天气数据,支持实时查询及多日预报,返回包括城市、国家、地区、日期、最高/最低温度、天气描述、湿度、风速、风向和降水概率等详细气象信息,采用JSON结构化数据格式,响应快速稳定,适用于各类天气应用、出行规划和数据分析场景。

腾讯云市场 收录

TCGA (The Cancer Genome Atlas)

TCGA数据集包含了多种癌症类型的基因组、转录组和表观遗传学数据,旨在通过大规模的基因组分析来理解癌症的发生和发展机制。

portal.gdc.cancer.gov 收录