HeroLT

arXiv2023-07-17 更新2024-07-30 收录

下载链接：

https://github.com/SSSKJ/HeroLT

下载链接

链接失效反馈

官方服务：

资源简介：

HeroLT是一个全面的长尾学习基准，集成了13种最先进的算法和6种评估指标，应用于来自3个领域的4种任务的14个真实世界基准数据集。

HeroLT is a comprehensive long-tailed learning benchmark that integrates 13 state-of-the-art algorithms and 6 evaluation metrics, supporting 14 real-world benchmark datasets covering 4 tasks across 3 domains.

创建时间：

2023-07-17

原始信息汇总

HeroLT 数据集概述

数据集描述

HeroLT 是一个综合的长尾学习基准，主要从以下三个角度考察长尾学习：

(A1) 数据长尾性的特征： 长尾数据表现出高度偏斜的数据分布和大量的类别。
(A2) 不同领域的数据复杂性： 广泛复杂的领域可能自然遇到长尾分布，例如表格数据、序列数据、网格数据和关系数据。
(A3) 新兴任务的异质性： 强调考虑现有方法在异质性任务上的适用性和局限性。

数据集结构

数据集结构如下：

HeroLT ├── HeroLT │ ├── configs # 可定制的配置 │ ├── data # HeroLT 中的数据集 │ ├── nn │ │ ├── Dataloaders │ │ ├── Datasets │ │ ├── layers │ │ ├── Models │ │ ├── Modules │ │ ├── Samplers │ │ ├── Schedulers │ │ ├── Wrappers # HeroLT 中的算法 │ │ ├── loss # 长尾学习中的损失函数 │ │ ├── pecos │ │ ├── xbert │ ├── outputs │ ├── tools │ ├── utils # 工具函数和类 ├── examples # 特定方法的运行示例 ├── figs └── README.md

数据集列表

HeroLT 包含以下 14 个数据集：

数据集	数据类型	类别数	数据量	边数	不平衡因子	Gini	Pareto
EURLEX-4K	序列	3,956	15,499	-	1,024	0.342	3.968
AMAZONCat-13K	序列	13,330	1,186,239	-	355,211	0.327	20.000
Wiki10-31K	序列	30,938	14,146	-	11,411	0.312	4.115
ImageNet-LT	网格	1,000	115,846	-	256	0.517	1.339
Places-LT	网格	365	62,500	-	996	0.610	2.387
iNatural 2018	网格	8,142	437,513	-	500	0.647	1.658
CIFAR 10-LT (100)	网格	10	12,406	-	100	0.617	1.751
CIFAR 10-LT (50)	网格	10	13,996	-	50	0.593	1.751
CIFAR 10-LT (10)	网格	10	20,431	-	10	0.520	0.833
CIFAR 100-LT (100)	网格	100	10,847	-	100	0.498	1.972
CIFAR 100-LT (50)	网格	100	12,608	-	50	0.488	1.590
CIFAR 100-LT (10)	网格	100	19,573	-	10	0.447	0.836
LVIS v0.5	网格	1,231	693,958	-	26,148	0.381	6.250
Cora-Full	关系	70	19,793	146,635	62	0.321	0.919
Wiki	关系	17	2,405	25,597	45	0.414	1.000
Email	关系	42	1,005	25,934	109	0.413	1.263
Amazon-Clothing	关系	77	24,919	208,279	10	0.343	0.814
Amazon-Eletronics	关系	167	42,318	129,430	9	0.329	0.600

搜集汇总

数据集介绍

构建方式

HEROLT数据集的构建旨在提供一个全面的评估框架，用于长尾学习问题。该数据集整合了13种最先进的算法和6种评估指标，覆盖了来自自然语言处理、计算机视觉和图挖掘领域的14个真实世界基准数据集，涉及4项任务。数据集的构建考虑了三个关键角度：数据长尾性的特征、不同领域的数据复杂性以及新兴任务的异质性。通过这些角度，HEROLT为研究人员和实践者提供了一个有效且公正地评估新提出的方法的平台，并与现有的基准方法进行比较。

特点

HEROLT数据集的特点在于其综合性和多样性。它涵盖了多种类型的数据，包括表格数据、序列数据、网格数据和关系数据，这些数据在现实世界的金融、电子商务、生物医学科学和网络安全等领域中普遍存在长尾分布。数据集的构建不仅考虑了数据的不平衡性，还考虑了类别数量的极端性。此外，HEROLT还提供了新的度量标准，如Pareto-LT比率，以更好地衡量数据集的长尾性。这使得研究人员能够更准确地理解和评估长尾学习问题。

使用方法

HEROLT数据集的使用方法主要包括以下几个方面：首先，用户可以根据数据集的长尾性、数据复杂性和任务异质性选择合适的算法进行评估。其次，用户可以利用数据集提供的6种评估指标来全面评估算法的性能。此外，HEROLT还提供了一个开源的工具箱，用户可以访问并使用其中的13种最先进的算法和评估结果。最后，用户还可以通过数据集提供的详细实验结果来深入理解长尾学习问题的特点和挑战。

背景与挑战

背景概述

长尾数据分布是众多领域中的常见现象，包括金融、电子商务、生物医学科学和网络安全等。在这些场景中，机器学习模型的性能往往受头部类别的主导，而对尾部类别的学习则明显不足。为了解决这一问题，研究人员开发了HEROLT数据集，该数据集整合了13种最先进的算法和6种评估指标，在14个真实世界基准数据集上进行测试，涵盖了来自3个领域的4个任务。HEROLT数据集提供了对长尾学习三个关键角度的系统视图，包括数据长尾性的特征、不同领域的数据复杂性和新兴任务的异质性。该数据集的创建旨在为研究人员和实践者提供一个有效和公平的评估平台，以便他们能够在新提出的方法与现有基线之间进行比较。

当前挑战

HEROLT数据集面临的挑战包括数据长尾性的特征化、不同领域的数据复杂性以及新兴任务的异质性。数据长尾性的特征化挑战在于如何准确描述给定数据的长尾程度。不同领域的数据复杂性挑战在于如何处理各种类型的数据，包括表格数据、序列数据、网格数据和关系数据。新兴任务的异质性挑战在于如何评估现有方法在不同类型任务上的适用性和局限性。此外，HEROLT数据集还面临着理论挑战，即缺乏足够的理论工具来分析长尾模型，例如其泛化性能。算法挑战在于现有研究通常关注一个领域的一个任务，而多模态学习和多任务学习的趋势要求考虑多种形式的输入数据或解决多个学习任务。应用挑战在于许多领域的数据集都表现出长尾分布，但长尾问题在抗生素抗性基因等领域却未得到足够的关注。

常用场景

经典使用场景

HEROLT数据集是针对异构长尾学习问题而设计的，旨在评估和比较不同算法在处理长尾分布数据时的性能。长尾分布数据在金融、电子商务、生物医学科学和网络安全等领域普遍存在，其中少数头部类别的数据量丰富，而尾部类别的数据量却相对稀缺。HEROLT数据集通过整合13种先进的算法和6种评估指标，在来自自然语言处理、计算机视觉和图挖掘三个领域的14个真实世界基准数据集上进行了实验，为研究人员和实践者提供了一个有效的评估框架。该数据集的经典使用场景包括但不限于：长尾数据分布特征的表征、不同领域数据复杂性的分析以及新兴任务的异构性研究。

解决学术问题

HEROLT数据集解决了长尾学习中存在的几个关键问题。首先，它提供了对数据长尾性的全面表征，帮助研究者更好地理解不同数据集的长尾特性。其次，HEROLT数据集涵盖了来自不同领域的多个数据集，使得研究者能够比较不同算法在不同数据复杂度下的表现。最后，该数据集通过包含多种学习任务，如多标签文本分类、图像分类、实例分割和节点分类，揭示了现有方法在不同任务上的适用性和局限性。这些研究和实验结果有助于推动长尾学习领域的发展，并为未来研究提供了新的方向。

衍生相关工作

HEROLT数据集的发布和研究成果对长尾学习领域产生了深远的影响。该数据集不仅为研究者提供了全面评估和比较不同算法的平台，还促进了长尾学习理论和方法的发展。基于HEROLT数据集的研究成果，许多研究者开始关注长尾数据分布的特征、数据复杂性和任务异构性，并提出了一系列新的算法和理论模型。此外，HEROLT数据集还为长尾学习在各个领域的实际应用提供了重要的数据支持和评估工具，推动了长尾学习在金融、生物医学科学和网络安全等领域的应用和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集