22个数据集,包括DBLP, Books, ACM, 20NG, OHSUMED, Reuters90, WOS-11967, WebKB, Twitter, TREC, WOS-5736, SST1, pang_movie, Movie Review, vader_movie, MPQA, Subj, SST2, yelp_reviews, AGNews, Yelp_2013, MEDLINE
收藏arXiv2025-04-03 更新2025-04-07 收录
下载链接:
https://github.com/waashk/atcBench/
下载链接
链接失效反馈官方服务:
资源简介:
本研究使用了22个真实世界的数据集,涵盖了两个主要的文本分类任务:主题分类和情感分析。这些数据集来源于不同的领域,并在大小、维度、类别数量、文档密度和类别分布上具有多样性。研究还包含了3个大型数据集,用以展示分类器在大数据场景下的可扩展性。数据集经过仔细挑选,以确保实验的可靠性和比较的公平性。
This study utilized 22 real-world datasets covering two core text classification tasks: topic classification and sentiment analysis. These datasets are derived from diverse domains and exhibit diversity in terms of scale, dimensionality, number of categories, document density and category distribution. The study also includes 3 large-scale datasets to demonstrate the scalability of classifiers in big data scenarios. All datasets were carefully selected to ensure the reliability of experiments and the fairness of comparative evaluations.
提供机构:
华盛顿州立大学
创建时间:
2025-04-03
搜集汇总
数据集介绍

构建方式
该数据集通过整合22个公开可用的文本分类数据集构建而成,涵盖主题分类和情感分析两大核心任务。数据集采用科学严谨的10折交叉验证划分策略(大规模数据集采用5折),确保实验结果的可靠性和可复现性。构建过程中特别注重领域多样性,包含学术文献(DBLP、ACM)、社交媒体(Twitter)、商品评论(Yelp)等多种文本类型,并详细记录了每个数据集的维度、类别数和分布不平衡度等关键统计特征。
特点
该基准数据集具有显著的多样性和规模优势,包含从5,736条到860,424条不等的文本样本,覆盖6至90个类别,呈现平衡、不平衡和极端不平衡三种分布形态。数据集特别设计了三个大规模子集(AGNews、Yelp_2013、MEDLINE)以测试算法 scalability。每个子集均提供标准化的(train-validation-test)划分,并附带完整的文档密度和偏态系数统计,为研究不同算法在数据稀疏性和类别不平衡场景下的表现提供了理想测试平台。
使用方法
使用该数据集时建议采用论文中描述的标准化评估流程:对于传统机器学习方法(SVM/LR/RF)推荐使用TF-IDF特征表示;深度学习模型需按照原文超参数设置进行微调,其中SLMs采用最大长度128/256和批量大小16/32的组合,LLMs则使用4-bit量化和QLoRA技术。评估指标统一采用Macro-F1以应对类别不平衡问题,统计显著性检验需使用Bonferroni校正的配对t检验。所有实验代码和分区方案已在GitHub开源,确保实验可重复性。
背景与挑战
背景概述
该数据集由华盛顿·库尼亚(Washington Cunha)等人于2025年构建,隶属于巴西米纳斯吉拉斯联邦大学与圣若昂德尔雷伊联邦大学的研究成果,旨在为自动文本分类(ATC)领域提供全面的基准测试框架。其核心研究问题聚焦于评估传统机器学习方法(如SVM、逻辑回归)、小型语言模型(SLMs)与大型语言模型(LLMs)在分类任务中的成本效益权衡,覆盖22个跨领域数据集(如DBLP、20NG、Yelp_2013),涵盖主题分类与情感分析两大核心任务。该研究通过科学严谨的交叉验证流程与开源代码,推动了ATC领域在模型选择与资源优化方面的标准化进程。
当前挑战
该数据集面临的挑战主要体现在两方面:领域问题层面,需解决文本分类中极端类别不平衡(如Reuters90)、高维稀疏特征(如Books数据集维度达46,382)及多语言语义理解(如BloomZ模型跨语言任务)等难题;构建过程中,需协调22个异构数据集的标准化处理(如统一分割为10折交叉验证)、控制LLMs微调的高计算成本(如LLaMA 3.1训练耗时较传统方法高590倍),并量化模型碳排放(如单次实验产生961kg CO2e)。此外,需平衡SLMs与LLMs在细粒度分类(如WOS-11967的33类)中的精度与效率矛盾。
常用场景
经典使用场景
在自然语言处理和信息检索领域,自动文本分类(ATC)技术经历了从传统机器学习方法到大型语言模型的显著演进。22个数据集(如DBLP、20NG、SST1等)涵盖了主题分类和情感分析两大核心任务,为研究者提供了多维度的评估基准。这些数据集通过10折或5折交叉验证划分,支持从传统方法(如SVM、逻辑回归)到Transformer架构的SLMs(如RoBERTa)和LLMs(如LLaMA)的全面对比实验,尤其适用于验证模型在类别不平衡、高维稀疏数据等复杂场景下的鲁棒性。
解决学术问题
该基准系统性地解决了自动文本分类领域的三个关键学术问题:其一,量化了LLMs相较于传统方法(平均提升7.2% Macro-F1)和SLMs(平均提升1.9%)的性能增益,如LLaMA 3.1在yelp_reviews数据集达到99.4%的SOTA效果;其二,揭示了模型效率与效果的权衡关系,证明LLMs虽性能优越但训练耗时可达传统方法的590倍;其三,通过碳排放分析(如LLMs单次训练排放170kg CO2e)提出了可持续AI研究的必要性,为资源受限场景下的模型选型提供了科学依据。
衍生相关工作
该基准已衍生出多个方向的前沿研究:在模型压缩领域,Pasini等人(2024)基于量子退火算法实现了LLMs的高效实例选择;文档难度感知方面,Cunha团队(2023)提出混合使用SLMs和LLMs的动态推理框架;De Andrade等人(2024)则探索了初代Transformer与开源LLMs的融合策略。这些工作均以本数据集的交叉验证划分为基础,推动了文本分类在轻量化、多模态等方向的创新发展。
以上内容由遇见数据集搜集并总结生成



