data-preprocessing-automl-benchmarks

Hugging Face2025-08-03 更新2025-08-04 收录

下载链接：

https://huggingface.co/datasets/MothMalone/data-preprocessing-automl-benchmarks

下载链接

链接失效反馈

官方服务：

资源简介：

这个仓库包含了文本分类数据集，这些数据集已知存在数据质量问题，用于自动机器学习中的数据预处理研究。具体包括：banking77（在线银行查询数据集）、trec（文本检索会议问题分类数据集）、financial_phrasebank（金融情感分析数据集）、MASSIVE（多语言亚马逊闲聊合成意图和语音评估数据集）和twenty_newsgroups（20个新闻组数据集）。

创建时间：

2025-08-03

原始信息汇总

数据集概述

基本信息

许可证: Apache-2.0
任务类别: 文本分类
语言: 英语
标签: 数据预处理, AutoML, 基准测试
规模分类:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M

数据集配置

imdb

描述: 用于二元情感分类的大型电影评论数据集，包含25,000个高度极化的电影评论用于训练和25,000个用于测试。
类别数: 2
训练样本: 18750
验证样本: 6250
测试样本: 25000

twenty_newsgroups

描述: 约20,000个新闻组文档的集合，均匀分布在20个不同的新闻组中，是文本分类的经典基准。
类别数: 20
训练样本: 8485
验证样本: 2829
测试样本: 7532

banking77

描述: 来自银行领域的13,083个客户服务查询的细粒度数据集，标注了77个不同的意图。
类别数: 77
训练样本: 7502
验证样本: 2501
测试样本: 3080

trec

描述: 文本检索会议（TREC）问题分类数据集，包含按答案类型分类的问题（例如，人物、地点、数字）。
类别数: 6
训练样本: 4089
验证样本: 1363
测试样本: 500

financial_phrasebank

描述: 来自英语财经新闻的句子集合，由金融专家标注情感（积极、消极或中性）。
类别数: 3
训练样本: 1358
验证样本: 453
测试样本: 453

MASSIVE

描述: 用于意图分类和槽填充的100万条多语言数据集，涵盖52种语言。此处使用en-US配置。
类别数: 60
训练样本: 11514
验证样本: 2033
测试样本: 2974

使用方法

python from datasets import load_dataset

示例：加载TREC数据集

dataset = load_dataset("MothMalone/data-preprocessing-automl-benchmarks", "trec")

搜集汇总

数据集介绍

构建方式

在自动化机器学习领域，高质量的数据预处理是模型性能提升的关键。该数据集通过整合多个经典文本分类基准（如IMDb影评、20Newsgroups新闻组等），采用标准化流程进行数据清洗与标注，每个子集均包含训练集、验证集和测试集的明确划分。数据以CSV格式存储，文本内容与标签分离，确保研究者可直接聚焦于预处理算法的开发与评估。

特点

数据集涵盖情感分析、意图识别、问答分类等多样场景，包含二元分类至77类细粒度分类任务。其显著特点在于保留原始文本的异构性，如金融短语库的专业术语、银行客服对话的口语化表达，为评估预处理方法的领域适应性提供理想素材。各子集样本量从千级到万级不等，满足不同计算资源的实验需求。

使用方法

通过Hugging Face数据集库可便捷加载指定子集，如加载TREC问答数据集时调用load_dataset函数并配置对应参数。数据以字典形式返回，包含text字段的原始文本和label字段的类别索引。研究者可基于标准化的数据拆分进行预处理流水线开发，或通过替换不同子集验证方法的泛化能力。

背景与挑战

背景概述

data-preprocessing-automl-benchmarks数据集由研究人员MothMalone创建，旨在为自动化机器学习（AutoML）领域的数据预处理研究提供标准化的文本分类基准。该数据集整合了包括IMDb影评、20 Newsgroups新闻组、Banking77银行客服对话等在内的多个经典文本分类任务，覆盖情感分析、意图识别、问答分类等多种自然语言处理场景。这些精选数据集经过统一格式化处理，为AutoML系统在数据清洗、特征工程等预处理环节的性能评估提供了多维度测试平台。

当前挑战

该数据集面临的核心挑战体现在两方面：领域问题层面，不同文本分类任务存在显著的领域差异，如金融文本的专业术语与日常对话的语义鸿沟，这对自动化预处理方法提出了跨领域泛化能力的严苛要求；构建过程中，原始数据的异构性导致标准化处理困难，包括非结构化文本的清洗、多标签体系的统一映射，以及小样本数据的平衡性保持等技术难点。

常用场景

经典使用场景

在自动化机器学习（AutoML）领域，该数据集作为文本分类任务的基准测试集，被广泛应用于评估不同数据预处理方法的性能。研究人员利用其包含的IMDb影评、20新闻组等多源文本数据，系统性地验证特征工程、文本清洗等预处理技术对模型效果的提升作用，为AutoML流程中的自动化数据预处理提供标准化评估框架。

衍生相关工作

该数据集催生了多项AutoML领域的重要研究，包括基于TREC子集的层次化问题分类框架、结合MASSIVE的多语言预处理迁移学习方案等。二十新闻组数据更成为对比学习在文本分类中应用的经典测试床，相关成果已发表于ACL、NeurIPS等顶级会议，持续推动着自动化特征工程与神经架构搜索的协同优化研究。

数据集最近研究