five

mikewang/AwA2|零样本学习数据集|图像分类数据集

收藏
hugging_face2023-08-31 更新2024-03-04 收录
零样本学习
图像分类
下载链接:
https://hf-mirror.com/datasets/mikewang/AwA2
下载链接
链接失效反馈
资源简介:
该数据集提供了一个平台,用于基准测试迁移学习算法,特别是基于属性的分类和零样本学习。它可以作为原始Animals with Attributes (AwA)数据集的替代品,因为它们具有相同的类别结构和几乎相同的特征。数据集包含50个动物类别的37322张图像,每张图像都有预提取的特征表示,并且每个类别都有85个数字属性值。图像数据来源于2016年的公开资源,如Flickr,并确保所有图像都可以免费使用和重新分发。
提供机构:
mikewang
原始信息汇总

数据集卡片 for Animals with Attributes v2 (AwA2)

数据集描述

主页: https://cvml.ista.ac.at/AwA2/

重要注意事项

  • 此HF数据集下载数据集(https://cvml.ista.ac.at/AwA2/AwA2-data.zip),并加载带有类级别注释的图像实例。
  • 此HF数据集中的“训练”分割包含所有图像。对于原始提出的分割和提出的分割版本2.0,请参阅此处
  • 许可证文件也包含在下载的数据集中(https://cvml.ista.ac.at/AwA2/AwA2-data.zip)

论文引用:

@article{xian2018zero, title={Zero-shot learning—a comprehensive evaluation of the good, the bad and the ugly}, author={Xian, Yongqin and Lampert, Christoph H and Schiele, Bernt and Akata, Zeynep}, journal={IEEE transactions on pattern analysis and machine intelligence}, volume={41}, number={9}, pages={2251--2265}, year={2018}, publisher={IEEE} }

数据集摘要

此数据集提供了一个平台来基准测试迁移学习算法,特别是基于属性的分类和零样本学习[1]。它可以作为原始Animals with Attributes (AwA)数据集[2,3]的即插即用替代品,因为它具有相同的类结构和几乎相同的特征。 它包含50个动物类别的37322张图像,每张图像都有预提取的特征表示。这些类别与Osherson的经典类/属性矩阵[3,4]对齐,从而为每个类别提供85个数值属性值。通过共享属性,可以在不同类别之间传递信息。 图像数据收集自公共资源,如Flickr,于2016年。在收集过程中,我们确保仅包括许可用于自由使用和重新分发的图像,请参阅存档中的个别许可证文件。如果数据集中包含您拥有版权且未自由许可的图像,请与我们联系,以便我们将其从集合中删除。

参考文献

[1] Y. Xian, C. H. Lampert, B. Schiele, Z. Akata. "Zero-Shot Learning - A Comprehensive Evaluation of the Good, the Bad and the Ugly", IEEE Transactions on Pattern Analysis and Machine Intelligence (T-PAMI) 40(8), 2018. (arXiv:1707.00600 [cs.CV]) [2] C. H. Lampert, H. Nickisch, and S. Harmeling. "Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer". In CVPR, 2009 [3] C. H. Lampert, H. Nickisch, and S. Harmeling. "Attribute-Based Classification for Zero-Shot Visual Object Categorization". IEEE T-PAMI, 2013 [4] D. N. Osherson, J. Stern, O. Wilkie, M. Stob, and E. E. Smith. "Default probability". Cognitive Science, 15(2), 1991. [5] C. Kemp, J. B. Tenenbaum, T. L. Griffiths, T. Yamada, and N. Ueda. "Learning systems of concepts with an infinite relational model". In AAAI, 2006.

AI搜集汇总
数据集介绍
main_image_url
构建方式
Animals with Attributes v2 (AwA2)数据集的构建基于对动物图像的广泛收集与属性标注,涵盖了50个动物类别,共计37322张图片。每张图片均配备了预先提取的特征表示,且类别与Osherson的经典类别/属性矩阵相对应,为每个类别提供了85个数值属性。图像数据主要来源于公共资源,如Flickr,确保了所有图像均符合免费使用与再分配的许可要求。
特点
AwA2数据集的特点在于其旨在成为迁移学习算法,尤其是基于属性的分类和零样本学习的基准测试平台。它不仅与原始的 Animals with Attributes (AwA) 数据集具有相同的类别结构,而且几乎保持了相同的特性,使得它可以无缝替换原始数据集。此外,数据集的开放许可属性确保了研究社区的广泛可用性。
使用方法
使用AwA2数据集时,研究者可以依托其提供的预提取特征和属性矩阵,开展零样本学习、迁移学习等研究。数据集的构建使其便于在类别之间转移信息,从而为未见过物体的检测与分类提供了可能。用户需遵循相应的许可协议,并确保在使用时尊重图像的版权与使用条款。
背景与挑战
背景概述
Animals with Attributes v2 (AwA2)数据集,作为动物属性研究的基准平台,由Xian Yongqin、Lampert Christoph H、Schiele Bernt和Akata Zeynep等于2018年构建。该数据集旨在评估迁移学习算法,尤其是基于属性的分类和零样本学习。AwA2数据集包含37322张图片,分为50个动物类别,每个类别都配有85个数值属性,这些属性使得不同类别间的信息传递成为可能。数据集的图像来源于2016年的公共资源,如Flickr,并确保所有图像均为免费使用和重新分配的许可。
当前挑战
该数据集在构建和应用过程中面临的挑战包括:如何有效地实现基于属性的迁移学习和零样本学习;如何处理和利用类别间的共享属性进行信息的转移;同时,还需确保所有图像版权的合法性和合规性。此外,由于数据集的规模和复杂性,数据标注和特征提取的准确性也是一个重要的挑战。
常用场景
经典使用场景
在机器学习领域,尤其是视觉识别任务中, Animals with Attributes v2 (AwA2) 数据集被广泛用于评估迁移学习算法的性能。其经典的使用场景在于,通过该数据集,研究者能够对基于属性的分类和零样本学习算法进行基准测试,进而提升模型对未见过物体的识别能力。
衍生相关工作
基于AwA2 数据集的研究催生了多项相关工作,如属性转移学习、零样本学习算法的改进等。这些研究进一步拓展了数据集的应用范围,推动了计算机视觉和机器学习领域的进步,其中包括了对数据集本身的扩展和优化,以及对相关理论和方法的发展。
数据集最近研究
最新研究方向
在计算机视觉领域,基于属性的分类与零样本学习是当前研究的热点。 Animals with Attributes v2 (AwA2) 数据集为此提供了评价平台,其包含50个动物类别的37322张图像,并伴有每个类别的85个数值属性。近期研究聚焦于如何利用这些属性进行有效的迁移学习,特别是在零样本学习情境下,通过未 seen 类别的属性推断,实现模型的泛化能力。该数据集的前沿研究方向涉及属性转移、特征表示学习以及类别间关系的建模,对于提升机器学习模型处理未知数据的能力具有显著意义。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

GME Data

关于2021年GameStop股票活动的数据,包括每日合并的GME短期成交量数据、每日失败交付数据、可借股数、期权链数据以及不同时间框架的开盘/最高/最低/收盘/成交量条形图。

github 收录

中国气象数据

本数据集包含了中国2023年1月至11月的气象数据,包括日照时间、降雨量、温度、风速等关键数据。通过这些数据,可以深入了解气象现象对不同地区的影响,并通过可视化工具揭示中国的气温分布、降水情况、风速趋势等。

github 收录

中国空气质量数据集(2014-2020年)

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心 收录

FSDD

FSDD(Free Spoken Digit Dataset)是一个开源的语音数据集,包含由不同说话者朗读的数字0到9的音频文件。该数据集旨在用于语音识别和机器学习算法的训练和测试。

github.com 收录

光伏电站发电量预估数据

1、准确预测一个地区分布式光伏场站的整体输出功率,可以提高电网的稳定性,增加电网消纳光电能量的能力,在降低能源消耗成本的同时促进低碳能源发展,实现动态供需状态预测的方法,为绿色电力源网荷储的应用落地提供支持。 2、准确预估光伏电站发电量,可以自动发现一些有故障的设备或者低效电站,提升发电效能。1、逆变器及电站数据采集,将逆变器中计算累计发电量数据,告警数据同步到Maxcompute大数据平台 2、天气数据采集, 通过API获取ERA5气象数据包括光照辐射、云量、温度、湿度等 3、数据特征构建, 在大数据处理平台进行数据预处理,用累计发电量矫正小时平均发电功率,剔除异常数据、归一化。告警次数等指标计算 4、异常数据处理, 天气、设备数据根据经纬度信息进行融合, 并对融合后的数据进行二次预处理操作,剔除辐照度和发电异常的一些数据 5、算法模型训练,基于XGBoost算法模型对历史数据进行训练, 生成训练集并保存至OSS 6、算法模型预测,基于XGBoost算法模型接入OSS训练集对增量数据进行预测, 并评估预测准确率等效果数据,其中误差率=(发电量-预估发电量)/发电量,当误差率低于一定阈值时,该数据预测为准确。预测准确率=预测准确数量/预测数据总量。

浙江省数据知识产权登记平台 收录