five

DLC-Bench|图像识别数据集|自然语言处理数据集

收藏
arXiv2025-04-23 更新2025-04-24 收录
图像识别
自然语言处理
下载链接:
https://describe-anything.github.io/
下载链接
链接失效反馈
资源简介:
DLC-Bench是由NVIDIA提出的,用于评估详细局部化图像和视频字幕生成的基准。该数据集通过半监督学习数据管道DLC-SDP生成,它利用高质量的分段注释和未标记的网络图像来丰富区域描述。DLC-Bench的设计目的是为了评估详细局部化字幕,而无需依赖参考字幕,它为模型提供了多种粒度的评估,包括关键词级别、短语级别和详细的 multisentence 局部化图像和视频字幕生成。
提供机构:
NVIDIA
创建时间:
2025-04-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
DLC-Bench数据集的构建采用了半监督学习(SSL)的数据管道(DLC-SDP),通过两个阶段实现高质量局部描述数据的生成。第一阶段利用现有分割数据集中的高质量掩码和关键词,通过视觉语言模型(VLM)将关键词扩展为基于掩码区域的详细描述。第二阶段通过自训练方法扩展至未标注的网络图像,结合CLIP置信度过滤和LLM摘要技术,生成多样化且高质量的局部描述数据。该数据集包含892个手动验证的问题,覆盖广泛的属性和潜在幻觉案例,确保评估的全面性和准确性。
特点
DLC-Bench数据集的核心特点在于其创新的评估方法,摒弃了传统依赖参考描述的评估方式,转而采用基于预定义正负属性的评估框架。该数据集通过正负问题对模型生成的描述进行评分,正问题关注区域应包含的细节,负问题则关注应避免的错误或无关信息。这种评估方式不仅更灵活准确,还能有效鼓励模型生成信息丰富且精确的描述,避免了因参考描述不完整而导致的误判。
使用方法
DLC-Bench的使用分为两个步骤:首先,模型需为基准数据集中的每个掩码区域生成详细描述;其次,通过文本语言模型(LLM)作为评判员,根据预定义的正负问题对生成描述进行评估。正问题评分基于描述是否准确包含指定细节,负问题则评估描述是否避免错误或无关信息。评分机制灵活,允许部分得分,并通过对对象识别的正确性进行验证,确保评估的严谨性。该基准适用于多粒度区域描述任务,包括关键词级、短语级和详细多句描述。
背景与挑战
背景概述
DLC-Bench是由NVIDIA、UC Berkeley和UCSF的研究团队于2025年提出的一个专注于详细局部图像和视频描述(Detailed Localized Captioning, DLC)的数据集。该数据集旨在解决视觉语言模型(VLMs)在生成特定区域详细描述时的核心挑战,包括局部细节丢失、高质量数据稀缺以及现有评估基准的局限性。DLC-Bench通过引入半监督学习数据管道(DLC-SDP)和基于属性的评估方法,显著提升了模型在细粒度区域理解任务上的表现。该数据集在7个基准测试中取得了最先进的性能,推动了计算机视觉和自然语言处理领域在细粒度视觉理解方面的发展。
当前挑战
DLC-Bench面临的挑战主要包括三个方面:1) 领域问题挑战:现有VLMs在生成特定区域的详细描述时,往往因从全局图像表示中提取局部特征而导致细粒度细节丢失,尤其是复杂场景中的小物体;2) 数据构建挑战:高质量DLC数据的稀缺性,现有数据集如RefCOCOs和Visual Genome通常只提供短短语,不足以训练模型生成丰富的详细描述;3) 评估挑战:现有基准依赖参考描述的文本匹配,无法全面评估生成描述的事实正确性和细节丰富度。DLC-Bench通过引入基于预定义属性的评估方法,消除了对参考描述的依赖,从而更准确地评估模型的细粒度描述能力。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,DLC-Bench数据集为细粒度区域描述任务提供了标准化的评估基准。该数据集通过预定义的正负属性评估机制,支持对图像视频中用户指定区域的详细描述质量进行无参考标注的客观衡量,典型应用于评估模型在复杂场景下对物体部件、纹理、空间关系等细节的捕捉能力。其创新性的评估范式尤其适合验证视觉语言模型在医疗影像分析、自动驾驶场景理解等需要精准区域描述的垂直领域表现。
解决学术问题
DLC-Bench有效解决了细粒度视觉描述任务中的三大核心挑战:区域细节丢失问题通过焦点提示机制保留高分辨率特征;数据稀缺问题通过半监督数据管道整合标注与网络图像;评估偏差问题则通过属性问答式评估摆脱对不完整参考描述的依赖。该数据集推动了对小物体识别精度、跨模态对齐质量、动态场景理解等关键研究议题的探索,为《Describe Anything Model》等创新模型提供了验证平台,显著提升了细粒度视觉描述的学术研究水平。
衍生相关工作
围绕DLC-Bench已衍生出系列创新研究:VP-SPHINX通过视觉提示增强实现跨模态定位,在基准测试中取得61.2%语义IoU;VideoRefer构建时空视频理解框架,将动态区域描述准确率提升至68.6%;RegionGPT采用区域感知架构,在Flickr30k实体数据集上实现74.7的CIDEr得分。这些工作共同推动了细粒度视觉描述技术向多粒度、多模态、动态化方向发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

PlantVillage

在这个数据集中,39 种不同类别的植物叶子和背景图像可用。包含 61,486 张图像的数据集。我们使用了六种不同的增强技术来增加数据集的大小。这些技术是图像翻转、伽玛校正、噪声注入、PCA 颜色增强、旋转和缩放。

OpenDataLab 收录

China Family Panel Studies (CFPS)

Please visit CFPS official data platform to download the newest data, WeChat official account of CFPS: ISSS_CFPS. The CFPS 2010 baseline survey conducted face-to-face interviews with the sampled households’ family members who live in the sample communities. It also interviewed those family members who were elsewhere in the same county. For those who were not present at home at the time of interview, basic information was collected from their family members at presence. All family members who had blood/marital/adoptive ties with the household were identified as permanent respondents. Prospective family members including new-borns and adopted children.

DataCite Commons 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录