TOC-UCO

Name: TOC-UCO
Creator: 西班牙科尔多瓦大学
Published: 2025-07-24 14:38:39
License: 暂无描述

arXiv2025-07-24 更新2025-07-25 收录

下载链接：

https://www.uco.es/grupos/ayrna/tocuco

下载链接

链接失效反馈

官方服务：

资源简介：

TOC-UCO是一个由西班牙科尔多瓦大学提供的公开数据集，包含46个表格式有序分类数据集，用于对新有序分类方法的稳健验证。该数据集经过预处理，确保每个类别都有合理的模式数量和适当的类别分布。数据集来源和预处理步骤都有详细说明，并提供了30个不同的随机训练-测试分区，以促进实验的可重复性。

TOC-UCO is a public dataset provided by the University of Cordoba, Spain, which contains 46 tabular ordinal classification datasets for robust validation of novel ordinal classification methods. This dataset has been preprocessed to ensure that each category has a reasonable number of patterns and an appropriate class distribution. Detailed descriptions are provided for both the dataset sources and preprocessing steps, and 30 distinct random train-test partitions are offered to facilitate experimental reproducibility.

提供机构：

西班牙科尔多瓦大学

创建时间：

2025-07-23

原始信息汇总

TOCUCO: Tabular Ordinal Classification repository of the University of Córdoba

数据集概述

名称: TOCUCO (Tabular Ordinal Classification repository of the University of Córdoba)
领域: 序数分类 (Ordinal Classification, OC)
特点: 包含46个表格型序数数据集，经过统一预处理，具有合理的样本数量和类别分布

数据集详情

数据类型: 表格型数据 (Tabular data)
数据集数量: 46个
预处理: 统一框架下预处理
附加信息: 提供每个数据集的来源和预处理步骤

数据集用途

用于验证新的序数分类方法
提供30个不同的随机训练-测试分区索引，便于实验复现

获取方式

下载地址: TOCUCO Download
教程和示例: GitHub

作者信息

作者:
- Rafael Ayllón-Gavilán
- David Guijo-Rubio
- Antonio Manuel Gómez-Orellana
- Francisco Bérchez-Moreno
- Víctor Manuel Vargas-Yun
- Pedro A. Gutiérrez
机构:
- Dept. of Clinical-Epidemiological Research in Primary Care, IMIBIC, Spain
- Dept. of Computer Science and Numerical Analysis, Universidad de Córdoba, Spain
联系方式:
- rayllong@uco.es
- dguijo@uco.es
- pagutierrez@uco.es

搜集汇总

数据集介绍

构建方式

TOC-UCO数据集的构建基于对现有序数分类数据集的系统性扩展与优化，通过整合46个独特的表格数据集，涵盖了从3到10个类别的广泛分布。数据集预处理采用统一的框架，确保每个类别的样本数量合理且分布自然。特别地，回归数据集通过k-means聚类方法进行离散化，避免了传统等频离散化导致的不自然类别分布问题。此外，数据集提供了30个不同的随机训练-测试划分索引，以确保实验的可重复性。

特点

TOC-UCO数据集的特点在于其多样性和高质量。它不仅包含了24个离散化回归数据集和22个原始序数分类数据集，还通过k-means离散化方法优化了类别分布，使得极端类别（如C1或CQ）的样本数量更加合理。数据集的类别数量分布广泛，从3类到10类不等，且每个类别的样本数量均经过精心调整，避免了极端不平衡的问题。此外，数据集还提供了详细的元数据和预处理步骤，确保了数据的透明性和可追溯性。

使用方法

TOC-UCO数据集的使用方法包括加载预处理的表格数据、应用提供的训练-测试划分索引以及进行模型训练与评估。用户可以通过提供的Python代码轻松加载数据集，并利用30个不同的随机划分进行交叉验证。数据集的评估建议使用序数分类特定的性能指标，如平均绝对误差（AMAE）和加权Kappa系数（QWK），以确保模型的有效性和鲁棒性。此外，数据集还提供了基线实验结果，方便用户对比和验证新方法的性能。

背景与挑战

背景概述

TOC-UCO（Tabular Ordinal Classification repository of the UCO）是由西班牙科尔多瓦大学的研究团队于2025年提出的一个综合性表格序数分类数据集库。该数据集旨在解决序数分类（Ordinal Classification, OC）领域长期存在的基准数据集匮乏问题。序数分类是一种特殊的分类任务，其类别之间存在自然顺序关系，常见于医学分级、产品质量评估等实际应用场景。TOC-UCO包含46个经过统一预处理的表格数据集，涵盖了从3到10个不等的类别数量，并提供了30种不同的训练-测试划分方案以确保实验的可重复性。该数据集的推出为序数分类算法的开发和评估提供了标准化平台，显著提升了该领域研究的可比性和可验证性。

当前挑战

TOC-UCO数据集主要面临两方面的挑战。在领域问题层面，序数分类任务本身存在类别间距离不等、极端类别样本稀缺等固有难题，且传统分类方法难以有效利用类别间的顺序信息。在构建过程中，研究团队需要解决原始数据高度不平衡（某些类别仅含个位数样本）、回归数据集离散化策略选择（如k-means与等频分箱的权衡）、以及消除重复数据集带来的评估偏差等技术挑战。此外，为确保数据质量，团队还需处理缺失值、异常值，并对某些数据集进行类别合并以缓解极端不平衡问题。这些挑战的克服使得TOC-UCO成为当前最全面、最可靠的序数分类基准数据集。

常用场景

经典使用场景

TOC-UCO数据集在序数分类（Ordinal Classification, OC）研究中扮演了重要角色，广泛应用于各类需要处理有序类别标签的机器学习任务中。该数据集特别适用于医学诊断、教育评估、金融风险评估等领域，其中类别之间存在明确的顺序关系。例如，在医学领域，TOC-UCO可用于预测疾病的不同阶段，如从健康到严重疾病的渐进过程。数据集中的46个表格数据集经过统一预处理，确保了类别分布的合理性，为研究者提供了可靠的基准数据。

衍生相关工作

TOC-UCO数据集自发布以来，已衍生出多项重要的研究工作。例如，基于该数据集的序数分类方法如Logistic All-Threshold (LogAT)和Ensemble BAsed on uNimodal Ordinal (EBANO)分类器在性能上取得了显著提升。此外，TOC-UCO还被用于验证多种深度学习模型在序数分类任务中的有效性，如卷积神经网络（CNN）和多层感知机（MLP）。这些研究不仅推动了序数分类算法的发展，也为其他领域的有序标签问题提供了新的解决思路。

数据集最近研究