five

ClimateTV|气候变化数据集|视觉分析数据集

收藏
arXiv2024-12-02 更新2024-12-06 收录
气候变化
视觉分析
下载链接:
https://github.com/KathPra/MP4VisualFrameDetection
下载链接
链接失效反馈
资源简介:
ClimateTV数据集是由曼海姆大学和慕尼黑工业大学的研究团队创建的,专门用于气候变化相关的视觉框架分析。该数据集包含了2019年1月在X(原Twitter)上分享的与气候变化相关的图像,涵盖了动物类别、政治抗议、气候变化解决方案及后果等多个主题。数据集的创建旨在通过图像聚类技术,自动化地识别和分类这些图像中的视觉框架,从而减少手动标注的工作量,并提高分析效率。该数据集的应用领域主要集中在社会科学研究中,特别是气候变化相关的视觉内容分析。
提供机构:
曼海姆大学
创建时间:
2024-12-02
AI搜集汇总
数据集介绍
main_image_url
构建方式
ClimateTV数据集的构建基于气候变化相关的社交媒体图像,这些图像主要来源于2019年1月在X(原Twitter)上分享的内容。数据集的构建过程中,研究者通过图像聚类技术,将视觉框架分析任务转化为最小成本多割问题(Minimum Cost Multicut Problem, MP),从而显著减少了人工标注的工作量。该数据集包含了多种视觉框架,如形式/风格框架和内容导向框架,这些框架通过不同的嵌入空间(如DINOv2和ConvNeXt V2)进行检测和分类。
特点
ClimateTV数据集的显著特点在于其广泛涵盖了气候变化相关的视觉内容,包括政治抗议、会议、气候变化解决方案(如风能)以及气候变化后果(如洪水、干旱、经济不稳定和侵犯人权)。数据集通过多种先进的视觉基础模型进行嵌入和聚类,能够捕捉到细微的视觉差异,从而为社会科学研究提供了丰富的数据支持。此外,该数据集的构建方法不依赖于预定义的框架,减少了结果的偏见,使得新框架的发现成为可能。
使用方法
使用ClimateTV数据集时,研究者可以通过多种嵌入模型(如ResNet-50、VGG19-BN、Vision Transformer B/32、ConvNeXt V2、DINOv2和CLIP ViT-B/32)生成图像特征,并利用这些特征构建全连接图。图的边权重由图像嵌入的余弦相似度决定,随后通过最小成本多割问题的求解器(如Greedy Additive Edge Contraction和Kerninghan-Lin算法)将图像分割成不同的聚类。研究者可以通过比较不同嵌入模型的聚类结果,分析其对视觉框架检测的有效性,并进一步探索多模态聚类(如结合图像和文本输入)的可能性。
背景与挑战
背景概述
气候电视(ClimateTV)数据集由曼海姆大学和慕尼黑工业大学的研究人员于2023年创建,旨在通过视觉框架分析来理解气候变化的社会科学研究。该数据集包含了2019年1月在社交媒体平台上分享的与气候变化相关的图像,这些图像被用于视觉框架分析,以确定在特定话语中的共同主题和概念。通过将聚类任务表述为最小成本多割问题(Minimum Cost Multicut Problem),研究人员能够显著减少手动注释的工作量,并最大化从提供的局部成对概率中获得的聚类后验概率。这一方法在社会科学研究中具有重要意义,因为它不仅加速了注释过程,还减少了预定义框架带来的偏见,从而能够更准确地检测新兴框架。
当前挑战
气候电视数据集在构建和应用过程中面临多项挑战。首先,视觉框架分析的自动化程度较低,数据集通常需要手动注释,这限制了其在大规模应用中的效率。其次,内容导向的框架检测自动化是一个更为复杂的任务,需要克服抽象和多样化概念检测的难题。此外,数据集的构建过程中,如何从海量的社交媒体图像中筛选出具有代表性的样本,确保数据集的多样性和代表性,也是一个重要的挑战。最后,尽管最小成本多割问题在图像聚类中显示出优越性,但其计算复杂性和对高质量嵌入空间的依赖,仍然是实际应用中需要解决的问题。
常用场景
经典使用场景
ClimateTV数据集在社会科学研究中被广泛用于视觉框架分析,通过图像聚类显著加速了注释过程。该数据集将聚类任务表述为最小成本多割问题(Minimum Cost Multicut Problem, MP),利用图像相似性作为输入,生成最大化后验概率的聚类结果。这一方法在检测视觉框架方面表现出色,特别是在使用DINOv2和ConvNeXt V2嵌入空间时,能够有效区分粗粒度和细粒度的视觉差异。
衍生相关工作
ClimateTV数据集的提出催生了一系列相关研究工作。例如,研究人员利用该数据集探索了不同嵌入空间在视觉框架检测中的效果,提出了基于最小成本多割问题的聚类方法。此外,该数据集还促进了多模态数据融合的研究,如结合图像和文本输入进行更精确的视觉框架分析。这些研究不仅提升了视觉框架检测的准确性,还为其他领域的图像分析提供了新的思路和方法。
数据集最近研究
最新研究方向
在社会科学领域,视觉框架分析已成为识别特定话语中共同主题和概念的关键方法。为了减少人工标注的工作量,图像聚类技术被引入以加速这一过程。最近的研究中,ClimateTV数据集被用于探索视觉框架检测的有效性。研究者们将聚类任务表述为最小成本多割问题(Minimum Cost Multicut Problem, MP),并展示了其在最大化后验概率方面的优势。通过使用多种嵌入空间,如DINOv2和ConvNeXt V2,研究者们展示了这些模型在检测视觉框架方面的优越性,尤其是在处理细粒度差异时。此外,该研究还探讨了嵌入空间差异对聚类结果的影响,并提供了关于选择最合适嵌入空间的实际建议。这些发现不仅推动了自动化视觉框架检测的发展,还为社会科学研究提供了新的工具和方法。
相关研究论文
  • 1
    I Spy With My Little Eye: A Minimum Cost Multicut Investigation of Dataset Frames曼海姆大学 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LFW

人脸数据集;LFW数据集共有13233张人脸图像,每张图像均给出对应的人名,共有5749人,且绝大部分人仅有一张图片。每张图片的尺寸为250X250,绝大部分为彩色图像,但也存在少许黑白人脸图片。 URL: http://vis-www.cs.umass.edu/lfw/index.html#download

AI_Studio 收录

UAVDT

UAVDT数据集由中国科学院大学等机构创建,包含约80,000帧从10小时无人机拍摄视频中精选的图像,覆盖多种复杂城市环境。数据集主要关注车辆目标,每帧均标注了边界框及多达14种属性,如天气条件、飞行高度、相机视角等。该数据集旨在推动无人机视觉技术在不受限制场景下的研究,解决高密度、小目标、相机运动等挑战,适用于物体检测、单目标跟踪和多目标跟踪等基础视觉任务。

arXiv 收录

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

poi

本项目收集国内POI兴趣点,当前版本数据来自于openstreetmap。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录