TOC-UCO

Name: TOC-UCO
Creator: 西班牙科尔多瓦大学
Published: 2025-07-24 14:38:39
License: 暂无描述

arXiv2025-07-24 更新2025-07-25 收录

下载链接：

https://www.uco.es/grupos/ayrna/tocuco

下载链接

链接失效反馈

官方服务：

资源简介：

TOC-UCO是一个由西班牙科尔多瓦大学提供的公开数据集，包含46个表格式有序分类数据集，用于对新有序分类方法的稳健验证。该数据集经过预处理，确保每个类别都有合理的模式数量和适当的类别分布。数据集来源和预处理步骤都有详细说明，并提供了30个不同的随机训练-测试分区，以促进实验的可重复性。

提供机构：

西班牙科尔多瓦大学

创建时间：

2025-07-23

原始信息汇总

TOCUCO: Tabular Ordinal Classification repository of the University of Córdoba

数据集概述

名称: TOCUCO (Tabular Ordinal Classification repository of the University of Córdoba)
领域: 序数分类 (Ordinal Classification, OC)
特点: 包含46个表格型序数数据集，经过统一预处理，具有合理的样本数量和类别分布

数据集详情

数据类型: 表格型数据 (Tabular data)
数据集数量: 46个
预处理: 统一框架下预处理
附加信息: 提供每个数据集的来源和预处理步骤

数据集用途

用于验证新的序数分类方法
提供30个不同的随机训练-测试分区索引，便于实验复现

获取方式

下载地址: TOCUCO Download
教程和示例: GitHub

作者信息

作者:
- Rafael Ayllón-Gavilán
- David Guijo-Rubio
- Antonio Manuel Gómez-Orellana
- Francisco Bérchez-Moreno
- Víctor Manuel Vargas-Yun
- Pedro A. Gutiérrez
机构:
- Dept. of Clinical-Epidemiological Research in Primary Care, IMIBIC, Spain
- Dept. of Computer Science and Numerical Analysis, Universidad de Córdoba, Spain
联系方式:
- rayllong@uco.es
- dguijo@uco.es
- pagutierrez@uco.es

搜集汇总

数据集介绍

构建方式

TOC-UCO数据集的构建基于对现有序数分类数据集的系统性扩展与优化，通过整合46个独特的表格数据集，涵盖了从3到10个类别的广泛分布。数据集预处理采用统一的框架，确保每个类别的样本数量合理且分布自然。特别地，回归数据集通过k-means聚类方法进行离散化，避免了传统等频离散化导致的不自然类别分布问题。此外，数据集提供了30个不同的随机训练-测试划分索引，以确保实验的可重复性。

特点

TOC-UCO数据集的特点在于其多样性和高质量。它不仅包含了24个离散化回归数据集和22个原始序数分类数据集，还通过k-means离散化方法优化了类别分布，使得极端类别（如C1或CQ）的样本数量更加合理。数据集的类别数量分布广泛，从3类到10类不等，且每个类别的样本数量均经过精心调整，避免了极端不平衡的问题。此外，数据集还提供了详细的元数据和预处理步骤，确保了数据的透明性和可追溯性。

使用方法

TOC-UCO数据集的使用方法包括加载预处理的表格数据、应用提供的训练-测试划分索引以及进行模型训练与评估。用户可以通过提供的Python代码轻松加载数据集，并利用30个不同的随机划分进行交叉验证。数据集的评估建议使用序数分类特定的性能指标，如平均绝对误差（AMAE）和加权Kappa系数（QWK），以确保模型的有效性和鲁棒性。此外，数据集还提供了基线实验结果，方便用户对比和验证新方法的性能。

背景与挑战

背景概述

TOC-UCO（Tabular Ordinal Classification repository of the UCO）是由西班牙科尔多瓦大学的研究团队于2025年提出的一个综合性表格序数分类数据集库。该数据集旨在解决序数分类（Ordinal Classification, OC）领域长期存在的基准数据集匮乏问题。序数分类是一种特殊的分类任务，其类别之间存在自然顺序关系，常见于医学分级、产品质量评估等实际应用场景。TOC-UCO包含46个经过统一预处理的表格数据集，涵盖了从3到10个不等的类别数量，并提供了30种不同的训练-测试划分方案以确保实验的可重复性。该数据集的推出为序数分类算法的开发和评估提供了标准化平台，显著提升了该领域研究的可比性和可验证性。

当前挑战

TOC-UCO数据集主要面临两方面的挑战。在领域问题层面，序数分类任务本身存在类别间距离不等、极端类别样本稀缺等固有难题，且传统分类方法难以有效利用类别间的顺序信息。在构建过程中，研究团队需要解决原始数据高度不平衡（某些类别仅含个位数样本）、回归数据集离散化策略选择（如k-means与等频分箱的权衡）、以及消除重复数据集带来的评估偏差等技术挑战。此外，为确保数据质量，团队还需处理缺失值、异常值，并对某些数据集进行类别合并以缓解极端不平衡问题。这些挑战的克服使得TOC-UCO成为当前最全面、最可靠的序数分类基准数据集。

常用场景

经典使用场景

TOC-UCO数据集在序数分类（Ordinal Classification, OC）研究中扮演了重要角色，广泛应用于各类需要处理有序类别标签的机器学习任务中。该数据集特别适用于医学诊断、教育评估、金融风险评估等领域，其中类别之间存在明确的顺序关系。例如，在医学领域，TOC-UCO可用于预测疾病的不同阶段，如从健康到严重疾病的渐进过程。数据集中的46个表格数据集经过统一预处理，确保了类别分布的合理性，为研究者提供了可靠的基准数据。

衍生相关工作

TOC-UCO数据集自发布以来，已衍生出多项重要的研究工作。例如，基于该数据集的序数分类方法如Logistic All-Threshold (LogAT)和Ensemble BAsed on uNimodal Ordinal (EBANO)分类器在性能上取得了显著提升。此外，TOC-UCO还被用于验证多种深度学习模型在序数分类任务中的有效性，如卷积神经网络（CNN）和多层感知机（MLP）。这些研究不仅推动了序数分类算法的发展，也为其他领域的有序标签问题提供了新的解决思路。

数据集最近研究