five

Noisy-LVIS

收藏
arXiv2023-07-15 更新2024-06-21 收录
下载链接:
https://github.com/GuanlinLee/Noisy-LVIS
下载链接
链接失效反馈
官方服务:
资源简介:
Noisy-LVIS是一个针对实例分割任务的大型词汇长尾数据集,包含1203个不同的类别,且含有标签噪声。该数据集由南洋理工大学创建,旨在模拟真实世界中数据的长尾分布和标签错误情况。数据集通过在LVIS v1基础上添加噪声标签生成,用于评估和改进实例分割算法在噪声环境下的性能。Noisy-LVIS的应用领域主要集中在提高模型对长尾和噪声数据的鲁棒性,解决实际应用中的挑战。

Noisy-LVIS is a large-scale vocabulary long-tailed dataset for instance segmentation tasks, which includes 1203 distinct categories and contains label noise. Developed by Nanyang Technological University, this dataset is designed to simulate the long-tailed distribution and label error scenarios present in real-world data. It is generated by adding noisy labels to the base LVIS v1 dataset, and is intended for evaluating and enhancing the performance of instance segmentation algorithms under noisy environments. The primary application scope of Noisy-LVIS focuses on improving the robustness of models against long-tailed and noisy data, as well as addressing practical challenges encountered in real-world applications.
提供机构:
南洋理工大学
创建时间:
2022-11-24
搜集汇总
数据集介绍
main_image_url
构建方式
Noisy-LVIS数据集的构建方法主要基于LVIS v1数据集。LVIS v1是一个包含1203个不同类别的大词汇量长尾实例分割数据集。为了模拟现实世界数据集中标签噪声的情况,研究者们采用了一种自动化工具,基于WordNet对LVIS v1中的类别进行语义分析,并根据类别的语义相似性将类别划分为不同的超类别。随后,通过随机选择同一超类别下的新类别来替换原始标签,从而引入了非对称(类别相关)噪声。此外,研究者们还考虑了对称(类别无关)噪声,即随机选择所有1203个可能类别中的一个来替换原始标签。通过调整噪声比例p,研究者们创建了不同噪声比例的噪声数据集。
特点
Noisy-LVIS数据集的主要特点是包含标签噪声,即数据集中的某些注释是错误的。此外,该数据集是一个长尾数据集,其中大多数实例属于少数类别(称为“头部”类别),而少数实例属于其他类别(称为“身体”和“尾部”类别)。这使得在训练模型时,如果不对训练算法进行修改以适应不平衡的数据集,模型将更倾向于对头部类别的实例给出更高的置信度,从而损害了对身体和尾部类别实例的泛化能力,导致准确率下降。Noisy-LVIS数据集为研究者在长尾和噪声数据集上进行实例分割任务提供了新的基准。
使用方法
使用Noisy-LVIS数据集时,研究者们首先需要了解数据集中的噪声类型和噪声比例。然后,他们可以选择不同的训练算法和损失函数来训练模型。在实验中,研究者们评估了三种主流的长尾实例分割方法(EQL、DropLoss和Seesaw Loss)在不同噪声设置下的性能。结果表明,以前提出的长尾实例分割损失函数在面对噪声数据集时缺乏鲁棒性,因此在设计新的损失函数以更好地适应标签噪声方面具有重要意义。此外,数据采样方法对最终结果也有显著影响,因此研究者们需要仔细选择合适的采样方法。
背景与挑战
背景概述
在图像分割任务中,实例分割模型提供了对图像中每个像素的精细语义信息标签。现有的研究主要集中在平衡且干净的数据集上,例如MS COCO。然而,现实世界中的数据集通常遵循长尾分布,其中大部分实例属于少数几个类别(头部类别),而少数实例属于其他类别(身体和尾部类别)。此外,数据集的标注通常由非专家完成,这导致数据集中存在标签噪声。Noisy-LVIS数据集由新加坡国立大学S-Lab的Guanlin Li和香港城市大学的Guowen Xu等研究人员于2023年创建,旨在解决长尾实例分割任务中的标签噪声问题。该数据集是一个包含噪声标签的大词汇量长尾数据集,用于实例分割任务,填补了长尾和噪声数据集在实例分割任务中的空白。
当前挑战
Noisy-LVIS数据集面临的挑战主要包括:1)解决长尾实例分割任务中的标签噪声问题;2)构建过程中遇到的挑战。长尾实例分割任务中,背景和前景需要分别处理,与图像识别任务不同,因此不能直接应用现有的长尾识别和噪声标签学习方法。此外,Noisy-LVIS数据集的构建过程中需要解决如何将噪声标签添加到LVIS v1数据集中的问题,并确保标签的一致性。
常用场景
经典使用场景
Noisy-LVIS数据集在长尾实例分割任务中具有广泛的应用场景。该数据集通过引入标签噪声,模拟了真实世界中数据集的分布特征,为研究者在训练模型时提供了更接近实际情况的数据环境。研究者可以利用Noisy-LVIS数据集评估和改进现有的实例分割算法,特别是针对长尾分布和标签噪声的鲁棒性进行深入研究。此外,该数据集也为研究者在设计新的数据增强方法、模型架构和损失函数等方面提供了宝贵的实验平台。
衍生相关工作
Noisy-LVIS数据集的提出为长尾实例分割任务的研究提供了新的思路和方法。研究者可以利用该数据集评估和改进现有的实例分割算法,特别是针对长尾分布和标签噪声的鲁棒性进行深入研究。此外,该数据集还为研究者在设计新的数据增强方法、模型架构和损失函数等方面提供了宝贵的实验平台。基于Noisy-LVIS数据集的研究成果可以进一步推动长尾实例分割任务的发展,并为相关领域的实际应用提供技术支持。
数据集最近研究
最新研究方向
随着深度学习在计算机视觉领域的广泛应用,实例分割作为一项核心任务,其数据集的构建和优化成为研究的重点。Noisy-LVIS 数据集的提出,为长尾分布且包含标签噪声的实例分割任务提供了新的研究视角。该数据集通过引入噪声标签,模拟了现实世界中数据标注的不完美性,为模型在实际应用中的泛化能力提供了挑战。当前研究主要集中在探索如何在存在标签噪声的长尾数据集上训练模型,包括数据增强方法、模型架构和损失函数的改进。研究结果表明,噪声标签会显著影响模型的性能,尤其是在学习罕见类别时。因此,设计能够有效处理噪声标签的损失函数和数据采样方法成为解决这一挑战的关键。Noisy-LVIS 数据集的出现,不仅填补了长尾实例分割数据集的空白,也为研究者提供了探索解决实际挑战的新途径。
相关研究论文
  • 1
    A Benchmark of Long-tailed Instance Segmentation with Noisy Labels南洋理工大学 · 2023年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作