five

Curated Comparative Dataset|视觉主题识别数据集|艺术研究数据集

收藏
arXiv2024-10-21 更新2024-10-23 收录
视觉主题识别
艺术研究
下载链接:
http://arxiv.org/abs/2410.15866v1
下载链接
链接失效反馈
资源简介:
Curated Comparative Dataset是由庞培法布拉大学开发的一个用于视觉主题识别的数据集,包含10760张图像,涵盖20种不同的视觉主题。数据集的创建旨在全面展示这些主题的特征、变体和细微差别,涵盖各种媒体、时期和来源。数据集的创建过程结合了艺术专家的意见,确保了数据集的质量和代表性。该数据集主要应用于视觉艺术和媒体研究领域,旨在通过自动识别和分类视觉主题,减轻研究人员的工作负担,并激发艺术家和内容创作者在创作中融入特定主题。
提供机构:
庞培法布拉大学
创建时间:
2024-10-21
AI搜集汇总
数据集介绍
main_image_url
构建方式
在电影艺术中,视觉母题是具有艺术或美学意义的重复性图像组合。为了识别和分类这些母题,研究团队精心构建了一个名为‘Curated Comparative Dataset’的数据集。该数据集包含10,760张图像,涵盖20种不同的视觉母题,如‘Autograph’、‘Brawl’和‘Pietà’等。这些图像来自电影、电视节目、新闻报道、绘画、漫画等多种视觉媒介。每张图像不仅标注了主要母题,还可能标注了次要母题,以反映图像中可能存在的多重母题。此外,图像还根据其在母题中的典型性被标记为‘Red Flag’、‘Canonical’或未标记,以提供更细致的训练数据。
特点
‘Curated Comparative Dataset’数据集的显著特点在于其多样性和细致的标注系统。数据集不仅涵盖了广泛的视觉媒介和历史时期,还通过多重母题标注和典型性标记,捕捉了视觉母题的复杂性和细微差别。这种细致的标注方法使得数据集能够更准确地反映视觉母题在不同艺术形式中的表现,从而为机器学习模型提供了丰富的训练数据。此外,数据集的构建过程中融入了艺术史专家的见解,确保了数据集在学术和艺术上的可靠性。
使用方法
该数据集主要用于训练和测试视觉母题识别的机器学习模型。研究团队利用预训练的CLIP模型提取图像特征,并在此基础上训练了一个浅层网络,使用适当的损失函数进行分类。数据集的多重母题标注和典型性标记为模型提供了丰富的信息,使其能够更准确地识别和分类视觉母题。研究结果表明,基于CLIP特征的模型在测试集上达到了0.91的F1分数,显示出其在视觉母题识别任务中的高效性和准确性。未来,该数据集还可用于扩展和改进现有的视觉母题识别模型,以及探索视觉母题在不同艺术形式中的表现。
背景与挑战
背景概述
视觉主题识别在电影艺术中具有重要意义,它涉及识别和分类那些在视觉艺术和媒体中反复出现的具有艺术或美学意义的图标性构图。Curated Comparative Dataset由Universitat Pompeu Fabra的研究团队开发,旨在通过机器学习模型自动识别和分类这些视觉主题。该数据集包含了10,760张图像,涵盖20种不同的视觉主题,如Autograph、Brawl、Duel等。数据集的构建不仅考虑了图像的多样性,还引入了多标签分类和图像特征标签系统,以更准确地反映视觉主题的复杂性和主观性。该数据集的开发标志着在数字人文领域中,视觉主题自动检测研究的新进展,为艺术史和视觉文化研究提供了有力的工具。
当前挑战
Curated Comparative Dataset在构建过程中面临多项挑战。首先,视觉主题的定义和识别具有高度主观性,这要求数据集在标注时需考虑多种可能的解释和细微差别。其次,数据集的规模相对较小,这限制了模型的训练效果,尤其是在处理复杂的多标签分类任务时。此外,视觉主题的多样性和跨媒体特性使得特征提取和模型训练更加复杂。尽管如此,通过利用如CLIP这样的预训练模型,研究团队成功地提取了具有代表性的特征,并训练了一个高效的分类模型,但其性能仍依赖于数据集的质量和多样性。未来的研究需要进一步扩展数据集,增加视觉主题的种类和图像数量,以提升模型的泛化能力和识别精度。
常用场景
经典使用场景
Curated Comparative Dataset在视觉艺术和电影研究领域中,被广泛用于识别和分类视觉母题(Visual Motifs)。通过利用CLIP模型提取的特征,该数据集训练了一个浅层网络,能够高效地将图像分类为20种不同的视觉母题,如Pietà、Hug和Mirror等。这一应用不仅展示了数据集在图像分类任务中的强大能力,还为艺术史和视觉文化研究提供了新的工具。
衍生相关工作
Curated Comparative Dataset的发布和应用催生了一系列相关研究和工作。例如,基于该数据集的研究已经扩展到其他艺术形式,如摄影和电视系列,进一步验证了视觉母题在不同媒体中的普遍性和重要性。此外,研究人员还探索了如何利用其他深度学习模型,如DINOv2和Detectron2,来增强视觉母题的识别能力。这些衍生工作不仅丰富了数据集的应用场景,还推动了计算机视觉在艺术和人文领域的深入研究。
数据集最近研究
最新研究方向
在视觉艺术与电影研究领域,Curated Comparative Dataset的最新研究方向聚焦于视觉主题的自动识别与分类。该数据集通过整合多种媒体形式和历史时期的图像,旨在捕捉视觉主题的多样性和细微差别。研究团队利用CLIP模型提取图像特征,并结合浅层网络和特定损失函数进行分类,取得了显著的成果,F1得分达到0.91。这一研究不仅推动了计算机视觉技术在艺术分析中的应用,也为艺术史学家和电影制作人提供了新的工具,以更高效地识别和分析视觉主题,从而深化对视觉文化的理解。
相关研究论文
  • 1
    Visual Motif Identification: Elaboration of a Curated Comparative Dataset and Classification Methods庞培法布拉大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4099个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

China Health and Nutrition Survey (CHNS)

China Health and Nutrition Survey(CHNS)是一项由美国北卡罗来纳大学人口中心与中国疾病预防控制中心营养与健康所合作开展的长期开放性队列研究项目,旨在评估国家和地方政府的健康、营养与家庭计划政策对人群健康和营养状况的影响,以及社会经济转型对居民健康行为和健康结果的作用。该调查覆盖中国15个省份和直辖市的约7200户家庭、超过30000名个体,采用多阶段随机抽样方法,收集了家庭、个体以及社区层面的详细数据,包括饮食、健康、经济和社会因素等信息。自2011年起,CHNS不断扩展,新增多个城市和省份,并持续完善纵向数据链接,为研究中国社会经济变化与健康营养的动态关系提供了重要的数据支持。

www.cpc.unc.edu 收录

中国劳动力动态调查

“中国劳动力动态调查” (China Labor-force Dynamics Survey,简称 CLDS)是“985”三期“中山大学社会科学特色数据库建设”专项内容,CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查,系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响,建立劳动力、家庭和社区三个层次上的追踪数据库,从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库 收录

中国近海地形数据集(渤海,黄海,东海,南海)

本数据集包含历年来通过收集和实测方法取得的中国近海水深点数据、地形图数据(ArcGIS格式),以及黄河口、莱州湾东部、辽东湾、山东南部沿海、南海部分海域的单波束、多波束水深测量数据,包括大尺度的低密度水深数据与局部高密度水深数据。

地球大数据科学工程 收录

HyperGlobal-450K - 全球最大规模高光谱图像数据集

HyperGlobal-450K数据集由武汉大学联合国内外多所知名高校及研究机构共同构建,是迄今为止全球规模最大的高光谱图像数据集。该数据集包含约45万张高光谱图像,规模等价于超过2000万张不重叠的三波段图像,远超现有的同类数据集。数据集涵盖了全球范围内的高光谱遥感图像,包括来自地球观测一号(EO-1)Hyperion和高分五号(GF-5B)两种传感器的图像,光谱范围从可见光到短波及中波红外,具有从紫外到长波红外的330个光谱波段,空间分辨率为30米。每幅图像经过精心处理,去除了无效波段和水汽吸收波段,保留了具有实际应用价值的光谱信息。HyperGlobal-450K数据集不仅支持高光谱图像的基础研究,还能够用于开发和测试各种高光谱图像处理方法,比如图像分类、目标检测、异常检测、变化检测、光谱解混、图像去噪和超分辨率等任务。

github 收录

GVJahnavi/Crops_set

该数据集包含图像和标签两个主要特征。图像特征的数据类型为图像,标签特征的数据类型为类标签,具体包括20种不同的植物病害和健康状态,如玉米的灰斑病、普通锈病、北方叶枯病,以及番茄的细菌性斑点病、早疫病、晚疫病等。数据集分为训练集和测试集,训练集包含25384个样本,测试集包含6346个样本。数据集的下载大小为514893426字节,总大小为474216412.07000005字节。

hugging_face 收录