Revised Benchmarks

github2023-12-19 更新2024-05-31 收录

下载链接：

https://github.com/Digital-Dermatology/SelfClean-Revised-Benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

该仓库包含使用SelfClean数据清洗协议和专家注释者创建的基准数据集的修订版本。这些修订文件列表应用于模型评估，并为跨领域的更可信赖的性能评估铺平道路。

This repository contains a revised version of the benchmark dataset created using the SelfClean data cleaning protocol and expert annotators. These revised file lists are applied for model evaluation, paving the way for more reliable performance assessments across various domains.

创建时间：

2023-09-13

原始信息汇总

数据集概述

数据集名称

Revised Benchmarks using SelfClean

数据集内容

本数据集包含使用SelfClean数据清洗协议和专家注释者创建的基准数据集的修订版本。修订文件列表应被用于模型评估，为跨领域更可信的性能评估铺平道路。

修订的基准

修订的文件列表包括原始数据集中有效图像的文件名，排除了无关和近重复样本。标签错误未被纠正，以公平对待类似SelfClean编码器的模型，但其普遍性被报告，可用于推断由于标签质量导致的性能饱和水平。

数据集详情

数据集	大小	无关样本	近重复	标签错误
MED-NODE	170	3 (1.8%)	1 (0.6%)	2 (1.2%)
PH2	200	0 (0.0%)	0 (0.0%)	0 (0.0%)
DDI	656	3 (0.5%)	6 (0.9%)	8 (1.2%)
Derm7pt	2,022	1 (0.1%)	9 (0.5%)	2 (0.1%)
PAD-UFES-20	2,298	2 (0.1%)	56 (2.4%)	3 (0.1%)
SD-128	5,619	3 (0.1%)	156 (2.8%)	4 (0.1%)

数据集使用说明

数据集包含修订的文件列表(revised_filelists/)和详细的问题列表(detailed_issue_lists)。修订的文件列表由排除数据质量问题的有效图像的文件名组成。

数据清洗协议

数据清洗协议结合了现有的算法清洗策略来发现候选问题，并使用可解释的停止准则进行有效注释。具体步骤包括：

使用SelfClean找出基准数据集中的潜在数据质量问题。
将SelfClean获得的排名呈现给人类注释者进行确认，依赖实践专家进行确认。
在确认过程后，保守地要求所有专家一致同意来识别问题，然后通过丢弃确认的无关样本和随机移除每个确认的近重复样本对来生成清洗后的基准数据集。

引用信息

如发现此存储库对您的研究有用或使用其中一个修订文件列表，请引用以下工作： bib @misc{groger_selfclean_2023, title = {{SelfClean}: {A} {Self}-{Supervised} {Data} {Cleaning} {Strategy}}, shorttitle = {{SelfClean}}, author = {Gröger, Fabian and Lionetti, Simone and Gottfrois, Philippe and Gonzalez-Jimenez, Alvaro and Amruthalingam, Ludovic and Consortium, Labelling and Groh, Matthew and Navarini, Alexander A. and Pouly, Marc}, year = 2023, } @InProceedings{pmlr-v225-groger23a, title = {Towards Reliable Dermatology Evaluation Benchmarks}, author = {Gr"oger, Fabian and Lionetti, Simone and Gottfrois, Philippe and Gonzalez-Jimenez, Alvaro and Groh, Matthew and Daneshjou, Roxana and Consortium, Labelling and Navarini, Alexander A. and Pouly, Marc}, booktitle = {Proceedings of the 3rd Machine Learning for Health Symposium}, pages = {101--128}, year = {2023}, volume = {225}, series = {Proceedings of Machine Learning Research}, month = {10 Dec}, publisher = {PMLR}, }

搜集汇总

数据集介绍

构建方式

Revised Benchmarks数据集的构建基于SelfClean数据清洗协议，结合了自监督学习（SSL）技术的先进算法与专家注释者的确认。首先，SelfClean框架通过排序候选数据质量问题，检测出无关样本、近似重复样本和标签错误。随后，这些排序结果由领域专家进行确认，采用保守的停止标准以确保高效注释。最终，数据集通过剔除确认的无关样本和随机移除近似重复样本中的一部分，生成了清洗后的基准数据集。

特点

Revised Benchmarks数据集的特点在于其高质量的数据清洗过程，确保了数据的可靠性和一致性。数据集排除了无关样本和近似重复样本，并报告了标签错误的普遍性，为模型评估提供了更可信的基础。此外，数据集涵盖了多个皮肤病学基准，如MED-NODE、PH2、DDI等，每个数据集都详细记录了清洗前后的样本数量和质量问题，为研究者提供了透明的数据质量信息。

使用方法

使用Revised Benchmarks数据集时，研究者可以通过提供的修订文件列表（`revised_filelists/`）获取清洗后的有效图像文件名。此外，数据集还提供了详细的问题列表（`detailed_issue_lists`），以Pickle文件格式存储，便于进一步分析数据质量问题。通过这些文件，用户可以轻松识别并排除数据中的无关样本、近似重复样本和标签错误，从而在模型评估中获得更准确的结果。

背景与挑战

背景概述

Revised Benchmarks数据集由Fabian Gröger等研究人员于2023年创建，旨在通过SelfClean数据清理协议和专家标注，提供修订后的基准数据集版本。该数据集的核心研究问题在于提升基准数据集的可信度，特别是在皮肤病学领域。通过剔除不相关和近似重复的样本，Revised Benchmarks为模型评估提供了更为可靠的数据基础，推动了皮肤病学图像分类和诊断模型的性能评估标准化。该数据集的影响力不仅体现在其数据质量提升上，还在于其提出的数据清理协议为其他领域的数据集修订提供了参考。

当前挑战

Revised Benchmarks数据集在构建过程中面临多重挑战。首先，数据清理过程中需要准确识别并剔除不相关样本、近似重复样本以及标签错误样本，这对算法的精确性和专家标注的可靠性提出了高要求。其次，数据清理协议的制定需要平衡清理效率与标注成本，特别是在处理大规模数据集时，如何在不牺牲数据质量的前提下减少标注工作量是一个关键问题。此外，数据集的修订还面临如何确保修订后的数据集能够公平地评估不同模型的性能，避免因数据清理而引入偏差。这些挑战不仅影响了数据集的构建过程，也对后续模型评估的可靠性提出了更高的要求。

常用场景

经典使用场景

Revised Benchmarks数据集在皮肤病学领域的模型评估中扮演了关键角色。通过使用SelfClean数据清理协议，该数据集提供了经过专家验证的修订版基准数据，排除了不相关和近重复样本，确保了模型评估的准确性和可靠性。这一数据集特别适用于皮肤病图像分类和诊断模型的性能评估，为研究者提供了一个更为纯净和可信的测试环境。

实际应用

在实际应用中，Revised Benchmarks数据集被广泛用于皮肤病诊断系统的开发和优化。医疗研究机构和技术公司利用该数据集训练和测试皮肤病分类模型，以提高诊断的准确性和效率。此外，该数据集还为皮肤病学领域的自动化诊断工具提供了可靠的基准，推动了人工智能技术在医疗健康领域的落地应用。

衍生相关工作

Revised Benchmarks数据集的发布催生了一系列相关研究，特别是在数据清理和模型评估领域。例如，基于SelfClean协议的改进算法被提出，用于更高效地检测和清理数据集中的噪声。此外，该数据集还激发了皮肤病学领域对数据质量问题的深入研究，推动了更多关于标签错误和样本重复问题的解决方案的提出。这些工作进一步提升了皮肤病学数据集的可靠性和实用性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集