five

Multi-view Datasets|多视角数据数据集|数据分类数据集

收藏
github2024-10-22 更新2024-10-24 收录
多视角数据
数据分类
下载链接:
https://github.com/XingchenHu2017/Some-Multi-view-datasets
下载链接
链接失效反馈
资源简介:
该数据集包含多个多视角基准数据集,用于聚类或分类任务。数据集包括AwA、COIL100、MNIST2、NUSWIDEOBJ、PIE和YoutubeFaces,每个数据集都有详细的描述和多视角特征。
创建时间:
2024-10-22
原始信息汇总

多视图数据集

数据集概述

该数据集包含多个用于聚类或分类的多视图基准数据集。

数据集列表

AwA

  • 描述: 包含50个动物类别的30,475张图像。
  • 视图数量: 6个。
  • 来源: https://cvml.ist.ac.at/AwA/

COIL100

  • 描述: 包含100个类别的7,200张图像。
  • 视图数量: 3个,包括等距投影(ISO)、线性判别分析(LDA)和邻域保持嵌入(NPE)。
  • 来源: http://www.cs.columbia.edu/CAVE/software/softlib/coil-100.php

MNIST2

  • 描述: 包含从“0”到“9”的60,000张数字图像。
  • 视图数量: 3个,包括ISO、LDA和NPE。
  • 来源: http://yann.lecun.com/exdb/mnist/

NUSWIDEOBJ

  • 描述: 包含31个类别的30,000张图像。
  • 视图数量: 5个,包括颜色直方图、块状颜色矩、颜色自相关图、边缘方向直方图和小波纹理。
  • 来源: https://lms.comp.nus.edu.sg/wp-content/uploads/2019/

PIE

  • 描述: 来自CMU多PIE人脸数据库,提取了C07、C09和C29中的$32 imes 32$图像。
  • 视图数量: 3个。
  • 来源: https://www.cs.cmu.edu/afs/cs/project/PIE/

YoutubeFaces

  • 描述: 包含从Youtube获取的101,499张人脸视频。
  • 视图数量: 未明确说明。
  • 来源: https://www.cs.tau.ac.il/~wolf/ytfaces/

引用

该数据集用于以下论文:

X. Hu et al., "Multi-View Fuzzy Classification With Subspace Clustering and Information Granules," in IEEE Transactions on Knowledge and Data Engineering, vol. 35, no. 11, pp. 11642-11655, 1 Nov. 2023, doi: 10.1109/TKDE.2022.3231929.

AI搜集汇总
数据集介绍
main_image_url
构建方式
在构建多视图数据集的过程中,研究者们精心挑选了多个具有代表性的数据源,并从中提取了多种异构特征。例如,AwA数据集包含了50种动物的30,475张图像,并提供了六种官方特征。COIL100数据集则收集了100个类别的7,200张图像,并采用了ISO、LDA和NPE三种异构特征。MNIST2数据集则从0到9的数字图像中提取了ISO、LDA和NPE三种视图。NUSWIDEOBJ数据集包含了31个类别的30,000张图像,每类有11张图像,并描述为五种视图。PIE数据集则从CMU多PIE人脸数据库中提取了32×32像素的图像,构建了三视图数据集。YoutubeFaces数据集则包含了从Youtube获取的101,499张人脸视频。这些数据集的构建旨在为多视图聚类和分类任务提供丰富的数据资源。
特点
多视图数据集的主要特点在于其丰富的异构特征和多样的数据源。每个数据集都包含了多个视图,这些视图通常是基于不同的特征提取方法构建的,如ISO、LDA、NPE等。这种多视图的设计使得数据集能够更好地捕捉数据的多样性和复杂性,从而为聚类和分类任务提供更全面的信息。此外,这些数据集还具有大规模和多样性的特点,涵盖了从动物图像到人脸视频等多种类型的数据,为研究者提供了广泛的应用场景。
使用方法
多视图数据集的使用方法主要包括数据预处理、特征提取和模型训练三个步骤。首先,研究者需要对原始数据进行预处理,确保数据的质量和一致性。随后,根据研究需求,选择合适的特征提取方法,如ISO、LDA、NPE等,构建多视图特征。最后,利用这些多视图特征进行模型训练,如多视图聚类或分类模型。在模型训练过程中,研究者可以根据具体任务调整模型参数,以达到最佳的性能。此外,数据集的构建者还提供了详细的文档和示例代码,帮助用户快速上手和应用。
背景与挑战
背景概述
多视图数据集(Multi-view Datasets)是由Xingchen Hu等研究人员在阿尔伯塔大学创建的,旨在解决聚类和分类问题。该数据集包含了多个领域的基准数据,如动物图像、手写数字、人脸视频等,通过提供多种异构特征视图,推动了多视图学习技术的发展。这些数据集的创建时间可追溯至2022年,其核心研究问题是如何在多视图环境下实现高效的聚类和分类。这些数据集不仅丰富了多视图学习的研究资源,还为相关领域的算法开发和验证提供了坚实的基础。
当前挑战
多视图数据集在构建过程中面临诸多挑战。首先,如何从不同视图中提取和整合异构特征,以确保数据的一致性和有效性,是一个关键问题。其次,数据集的多样性和复杂性增加了模型训练的难度,特别是在处理大规模数据时,计算资源和时间成本成为显著挑战。此外,不同数据集的特性和应用场景各异,如何在通用性和特定性之间找到平衡,也是研究人员需要解决的问题。这些挑战不仅影响了数据集的质量和可用性,也对多视图学习算法的性能提出了更高的要求。
常用场景
经典使用场景
在多视图数据集的广泛应用中,经典场景之一是聚类和分类任务。例如,AwA数据集包含50种动物的30,475张图像,提供了六个视图的特征,适用于多视图聚类和分类研究。COIL100数据集则通过三种异构特征(ISO、LDA和NPE)描述100个类别的7,200张图像,为多视图分类提供了丰富的数据支持。这些数据集通过整合多个视图的信息,显著提升了模型的分类和聚类性能。
衍生相关工作
多视图数据集的引入催生了大量相关研究工作,特别是在多视图学习和特征融合领域。例如,X. Hu等人在IEEE Transactions on Knowledge and Data Engineering上发表的论文《Multi-View Fuzzy Classification With Subspace Clustering and Information Granules》,利用这些数据集研究了多视图模糊分类和子空间聚类问题。此外,许多基于这些数据集的研究工作还涉及多视图特征选择、多视图深度学习和多视图表示学习等前沿领域,进一步推动了多视图学习理论和应用的发展。
数据集最近研究
最新研究方向
在多视图数据集领域,最新的研究方向主要集中在多视图聚类和分类算法的优化与创新。随着数据多样性和复杂性的增加,研究人员致力于开发能够有效整合不同视图信息的方法,以提升分类和聚类的准确性和鲁棒性。例如,多视图模糊分类与子空间聚类相结合的方法,通过信息粒度的引入,显著提高了多视图数据处理的效率和效果。这些研究不仅推动了数据科学的发展,也为跨领域应用如计算机视觉和模式识别提供了新的工具和视角。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

典型分布式光伏出力预测数据集

光伏电站出力数据每5分钟从电站机房监控系统获取;气象实测数据从气象站获取,气象站建于电站30号箱变附近,每5分钟将采集的数据通过光纤传输到机房;数值天气预报数据利用中国电科院新能源气象应用机房的WRF业务系统(包括30TF计算刀片机、250TB并行存储)进行中尺度模式计算后输出预报产品,每日8点前通过反向隔离装置推送到电站内网预测系统。

国家基础学科公共科学数据中心 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

HazyDet

HazyDet是由解放军工程大学等机构创建的一个大规模数据集,专门用于雾霾场景下的无人机视角物体检测。该数据集包含383,000个真实世界实例,收集自自然雾霾环境和正常场景中人工添加的雾霾效果,以模拟恶劣天气条件。数据集的创建过程结合了深度估计和大气散射模型,确保了数据的真实性和多样性。HazyDet主要应用于无人机在恶劣天气条件下的物体检测,旨在提高无人机在复杂环境中的感知能力。

arXiv 收录

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

PDT Dataset

PDT数据集是由山东计算机科学中心(国家超级计算济南中心)和齐鲁工业大学(山东省科学院)联合开发的无人机目标检测数据集,专门用于检测树木病虫害。该数据集包含高分辨率和低分辨率两种版本,共计5775张图像,涵盖了健康和受病虫害影响的松树图像。数据集的创建过程包括实地采集、数据预处理和人工标注,旨在为无人机在农业中的精准喷洒提供高精度的目标检测支持。PDT数据集的应用领域主要集中在农业无人机技术,旨在提高无人机在植物保护中的目标识别精度,解决传统检测模型在实际应用中的不足。

arXiv 收录