five

DLC-Bench|图像识别数据集|自然语言处理数据集

收藏
arXiv2025-04-23 更新2025-04-24 收录
图像识别
自然语言处理
下载链接:
https://describe-anything.github.io/
下载链接
链接失效反馈
资源简介:
DLC-Bench是由NVIDIA提出的,用于评估详细局部化图像和视频字幕生成的基准。该数据集通过半监督学习数据管道DLC-SDP生成,它利用高质量的分段注释和未标记的网络图像来丰富区域描述。DLC-Bench的设计目的是为了评估详细局部化字幕,而无需依赖参考字幕,它为模型提供了多种粒度的评估,包括关键词级别、短语级别和详细的 multisentence 局部化图像和视频字幕生成。
提供机构:
NVIDIA
创建时间:
2025-04-23
AI搜集汇总
数据集介绍
main_image_url
构建方式
DLC-Bench数据集的构建采用了半监督学习(SSL)的数据管道(DLC-SDP),通过两个阶段实现高质量局部描述数据的生成。第一阶段利用现有分割数据集中的高质量掩码和关键词,通过视觉语言模型(VLM)将关键词扩展为基于掩码区域的详细描述。第二阶段通过自训练方法扩展至未标注的网络图像,结合CLIP置信度过滤和LLM摘要技术,生成多样化且高质量的局部描述数据。该数据集包含892个手动验证的问题,覆盖广泛的属性和潜在幻觉案例,确保评估的全面性和准确性。
特点
DLC-Bench数据集的核心特点在于其创新的评估方法,摒弃了传统依赖参考描述的评估方式,转而采用基于预定义正负属性的评估框架。该数据集通过正负问题对模型生成的描述进行评分,正问题关注区域应包含的细节,负问题则关注应避免的错误或无关信息。这种评估方式不仅更灵活准确,还能有效鼓励模型生成信息丰富且精确的描述,避免了因参考描述不完整而导致的误判。
使用方法
DLC-Bench的使用分为两个步骤:首先,模型需为基准数据集中的每个掩码区域生成详细描述;其次,通过文本语言模型(LLM)作为评判员,根据预定义的正负问题对生成描述进行评估。正问题评分基于描述是否准确包含指定细节,负问题则评估描述是否避免错误或无关信息。评分机制灵活,允许部分得分,并通过对对象识别的正确性进行验证,确保评估的严谨性。该基准适用于多粒度区域描述任务,包括关键词级、短语级和详细多句描述。
背景与挑战
背景概述
DLC-Bench是由NVIDIA、UC Berkeley和UCSF的研究团队于2025年提出的一个专注于详细局部图像和视频描述(Detailed Localized Captioning, DLC)的数据集。该数据集旨在解决视觉语言模型(VLMs)在生成特定区域详细描述时的核心挑战,包括局部细节丢失、高质量数据稀缺以及现有评估基准的局限性。DLC-Bench通过引入半监督学习数据管道(DLC-SDP)和基于属性的评估方法,显著提升了模型在细粒度区域理解任务上的表现。该数据集在7个基准测试中取得了最先进的性能,推动了计算机视觉和自然语言处理领域在细粒度视觉理解方面的发展。
当前挑战
DLC-Bench面临的挑战主要包括三个方面:1) 领域问题挑战:现有VLMs在生成特定区域的详细描述时,往往因从全局图像表示中提取局部特征而导致细粒度细节丢失,尤其是复杂场景中的小物体;2) 数据构建挑战:高质量DLC数据的稀缺性,现有数据集如RefCOCOs和Visual Genome通常只提供短短语,不足以训练模型生成丰富的详细描述;3) 评估挑战:现有基准依赖参考描述的文本匹配,无法全面评估生成描述的事实正确性和细节丰富度。DLC-Bench通过引入基于预定义属性的评估方法,消除了对参考描述的依赖,从而更准确地评估模型的细粒度描述能力。
常用场景
经典使用场景
在计算机视觉与自然语言处理的交叉领域,DLC-Bench数据集为细粒度区域描述任务提供了标准化的评估基准。该数据集通过预定义的正负属性评估机制,支持对图像视频中用户指定区域的详细描述质量进行无参考标注的客观衡量,典型应用于评估模型在复杂场景下对物体部件、纹理、空间关系等细节的捕捉能力。其创新性的评估范式尤其适合验证视觉语言模型在医疗影像分析、自动驾驶场景理解等需要精准区域描述的垂直领域表现。
解决学术问题
DLC-Bench有效解决了细粒度视觉描述任务中的三大核心挑战:区域细节丢失问题通过焦点提示机制保留高分辨率特征;数据稀缺问题通过半监督数据管道整合标注与网络图像;评估偏差问题则通过属性问答式评估摆脱对不完整参考描述的依赖。该数据集推动了对小物体识别精度、跨模态对齐质量、动态场景理解等关键研究议题的探索,为《Describe Anything Model》等创新模型提供了验证平台,显著提升了细粒度视觉描述的学术研究水平。
衍生相关工作
围绕DLC-Bench已衍生出系列创新研究:VP-SPHINX通过视觉提示增强实现跨模态定位,在基准测试中取得61.2%语义IoU;VideoRefer构建时空视频理解框架,将动态区域描述准确率提升至68.6%;RegionGPT采用区域感知架构,在Flickr30k实体数据集上实现74.7的CIDEr得分。这些工作共同推动了细粒度视觉描述技术向多粒度、多模态、动态化方向发展。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Population and Housing Census of 2007 - Ethiopia

Geographic coverage --------------------------- National coverage Analysis unit --------------------------- Household Person Housing unit Universe --------------------------- The census has counted people on dejure and defacto basis. The dejure population comprises all the persons who belong to a given area at a given time by virtue of usual residence, while under defacto approach people were counted as the residents of the place where they found. In the census, a person is said to be a usual resident of a household (and hence an area) if he/she has been residing in the household continuously for at least six months before the census day or intends to reside in the household for six months or longer. Thus, visitors are not included with the usual (dejure) population. Homeless persons were enumerated in the place where they spent the night on the enumeration day. The 2007 census counted foreign nationals who were residing in the city administration. On the other hand all Ethiopians living abroad were not counted. Kind of data --------------------------- Census/enumeration data [cen] Mode of data collection --------------------------- Face-to-face [f2f] Research instrument --------------------------- Two type sof questionnaires were used to collect census data: i) Short questionnaire ii) Long questionnaire Unlike the previous censuses, the contents of the short and long questionnaires were similar both for the urban and rural areas as well as for the entire city. But the short and the long questionnaires differ by the number of variables they contained. That is, the short questionnaire was used to collect basic data on population characteristics, such as population size, sex, age, language, ethnic group, religion, orphanhood and disability. Whereas the long questionnaire includes information on marital status, education, economic activity, migration, fertility, mortality, as well as housing stocks and conditions in addition to those questions contained in a short questionnaire.

catalog.ihsn.org 收录

AQA-7

AQA-7 是一个用于动作质量评估(AQA)的统一基准数据集,旨在通过整合多个领域的数据集来标准化评估方法。该数据集包含视频、骨骼数据和多模态输入,涵盖了体育分析、技能评估和医疗护理等多个应用领域。数据集的创建过程通过系统分析现有文献和实验协议,确保了评估的准确性和计算效率。AQA-7 的应用领域广泛,旨在解决动作质量评估中的偏差问题,提供客观的自动化评估,特别是在体育评分、技能评估和康复训练中具有重要意义。

arXiv 收录

SWaT Dataset

SWaT Dataset是一个用于工业控制系统(ICS)安全研究的数据集,包含了模拟的网络攻击和正常操作的数据。该数据集由新加坡科技设计大学(Singapore University of Technology and Design)发布,旨在帮助研究人员开发和测试用于检测工业控制系统中网络攻击的算法和模型。

itrust.sutd.edu.sg 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

MagicData

MAGICDATA普通话阅读语音语料库由MAGIC DATA开发 科技有限公司,并免费发布用于非商业用途。 语料库的内容和相应的描述包括: 语料库包含 755 小时的语音数据,即 主要是移动记录的数据。 来自中国不同口音地区的1080位发言者是 受邀参与录制。 句子转录准确率高于98%。 录音在安静的室内环境中进行。 数据库分为训练集、验证集和测试 以51:1:2的比例设置。 语音数据编码和说话人信息等详细信息是 保留在元数据文件中。 记录文本的领域是多样化的,包括交互式 问答、音乐搜索、SNS消息、家庭命令和控制等。 还提供了分段的成绩单。 该语料库旨在支持语音识别,机器方面的研究人员 翻译、说话人识别和其他语音相关领域。因此 语料库完全免费供学术使用。

OpenDataLab 收录