data-preprocessing-automl-benchmarks
收藏Hugging Face2025-08-03 更新2025-08-04 收录
下载链接:
https://huggingface.co/datasets/MothMalone/data-preprocessing-automl-benchmarks
下载链接
链接失效反馈官方服务:
资源简介:
这个仓库包含了文本分类数据集,这些数据集已知存在数据质量问题,用于自动机器学习中的数据预处理研究。具体包括:banking77(在线银行查询数据集)、trec(文本检索会议问题分类数据集)、financial_phrasebank(金融情感分析数据集)、MASSIVE(多语言亚马逊闲聊合成意图和语音评估数据集)和twenty_newsgroups(20个新闻组数据集)。
创建时间:
2025-08-03
原始信息汇总
数据集概述
基本信息
- 许可证: Apache-2.0
- 任务类别: 文本分类
- 语言: 英语
- 标签: 数据预处理, AutoML, 基准测试
- 规模分类:
- n<1K
- 1K<n<10K
- 10K<n<100K
- 100K<n<1M
数据集配置
imdb
- 描述: 用于二元情感分类的大型电影评论数据集,包含25,000个高度极化的电影评论用于训练和25,000个用于测试。
- 类别数: 2
- 训练样本: 18750
- 验证样本: 6250
- 测试样本: 25000
twenty_newsgroups
- 描述: 约20,000个新闻组文档的集合,均匀分布在20个不同的新闻组中,是文本分类的经典基准。
- 类别数: 20
- 训练样本: 8485
- 验证样本: 2829
- 测试样本: 7532
banking77
- 描述: 来自银行领域的13,083个客户服务查询的细粒度数据集,标注了77个不同的意图。
- 类别数: 77
- 训练样本: 7502
- 验证样本: 2501
- 测试样本: 3080
trec
- 描述: 文本检索会议(TREC)问题分类数据集,包含按答案类型分类的问题(例如,人物、地点、数字)。
- 类别数: 6
- 训练样本: 4089
- 验证样本: 1363
- 测试样本: 500
financial_phrasebank
- 描述: 来自英语财经新闻的句子集合,由金融专家标注情感(积极、消极或中性)。
- 类别数: 3
- 训练样本: 1358
- 验证样本: 453
- 测试样本: 453
MASSIVE
- 描述: 用于意图分类和槽填充的100万条多语言数据集,涵盖52种语言。此处使用en-US配置。
- 类别数: 60
- 训练样本: 11514
- 验证样本: 2033
- 测试样本: 2974
使用方法
python from datasets import load_dataset
示例:加载TREC数据集
dataset = load_dataset("MothMalone/data-preprocessing-automl-benchmarks", "trec")
搜集汇总
数据集介绍

构建方式
在自动化机器学习领域,高质量的数据预处理是模型性能提升的关键。该数据集通过整合多个经典文本分类基准(如IMDb影评、20Newsgroups新闻组等),采用标准化流程进行数据清洗与标注,每个子集均包含训练集、验证集和测试集的明确划分。数据以CSV格式存储,文本内容与标签分离,确保研究者可直接聚焦于预处理算法的开发与评估。
特点
数据集涵盖情感分析、意图识别、问答分类等多样场景,包含二元分类至77类细粒度分类任务。其显著特点在于保留原始文本的异构性,如金融短语库的专业术语、银行客服对话的口语化表达,为评估预处理方法的领域适应性提供理想素材。各子集样本量从千级到万级不等,满足不同计算资源的实验需求。
使用方法
通过Hugging Face数据集库可便捷加载指定子集,如加载TREC问答数据集时调用load_dataset函数并配置对应参数。数据以字典形式返回,包含text字段的原始文本和label字段的类别索引。研究者可基于标准化的数据拆分进行预处理流水线开发,或通过替换不同子集验证方法的泛化能力。
背景与挑战
背景概述
data-preprocessing-automl-benchmarks数据集由研究人员MothMalone创建,旨在为自动化机器学习(AutoML)领域的数据预处理研究提供标准化的文本分类基准。该数据集整合了包括IMDb影评、20 Newsgroups新闻组、Banking77银行客服对话等在内的多个经典文本分类任务,覆盖情感分析、意图识别、问答分类等多种自然语言处理场景。这些精选数据集经过统一格式化处理,为AutoML系统在数据清洗、特征工程等预处理环节的性能评估提供了多维度测试平台。
当前挑战
该数据集面临的核心挑战体现在两方面:领域问题层面,不同文本分类任务存在显著的领域差异,如金融文本的专业术语与日常对话的语义鸿沟,这对自动化预处理方法提出了跨领域泛化能力的严苛要求;构建过程中,原始数据的异构性导致标准化处理困难,包括非结构化文本的清洗、多标签体系的统一映射,以及小样本数据的平衡性保持等技术难点。
常用场景
经典使用场景
在自动化机器学习(AutoML)领域,该数据集作为文本分类任务的基准测试集,被广泛应用于评估不同数据预处理方法的性能。研究人员利用其包含的IMDb影评、20新闻组等多源文本数据,系统性地验证特征工程、文本清洗等预处理技术对模型效果的提升作用,为AutoML流程中的自动化数据预处理提供标准化评估框架。
衍生相关工作
该数据集催生了多项AutoML领域的重要研究,包括基于TREC子集的层次化问题分类框架、结合MASSIVE的多语言预处理迁移学习方案等。二十新闻组数据更成为对比学习在文本分类中应用的经典测试床,相关成果已发表于ACL、NeurIPS等顶级会议,持续推动着自动化特征工程与神经架构搜索的协同优化研究。
数据集最近研究
最新研究方向
在自动化机器学习(AutoML)领域,数据预处理作为模型性能提升的关键环节,正逐渐成为研究热点。data-preprocessing-automl-benchmarks数据集整合了多个经典文本分类任务,如情感分析(IMDB)、意图识别(banking77)和金融舆情分析(financial_phrasebank),为探索预处理技术对模型泛化能力的影响提供了标准化实验平台。当前研究聚焦于开发鲁棒性预处理框架,特别是在处理类别不平衡(twenty_newsgroups)、跨领域迁移(MASSIVE多语言场景)和噪声过滤(TREC短文本)等挑战时,如何通过自动化流程优化特征工程。该数据集通过提供标注质量一致的基准数据,显著促进了AutoML技术在自然语言处理中的可复现性研究。
以上内容由遇见数据集搜集并总结生成



