AG-news-softlabels

Hugging Face2025-06-17 更新2025-06-19 收录

下载链接：

https://huggingface.co/datasets/nixiieee/AG-news-softlabels

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个新闻分类数据集，包含文章文本和对应的分类标签，以及通过模型计算得到的软标签。数据集分为四个类别：世界、体育、商业和科技。每个样本都提供了一个文本特征、一个分类标签和四个类别的软标签。

创建时间：

2025-06-10

搜集汇总

数据集介绍

构建方式

AG-news-softlabels数据集的构建采用了先进的自然语言处理技术，通过Qwen2.5-1.5B-Instruct模型对原始AG新闻文本进行软标签标注。构建过程中，模型根据新闻内容对四个预定义类别（世界、体育、商业、科技）进行概率分布预测，生成反映文本归属可能性的软标签。该方法突破了传统硬分类的局限性，以概率形式捕捉了新闻主题的模糊边界，为模型训练提供了更丰富的监督信号。

特点

该数据集的核心特征在于其独特的软标签结构，每个样本不仅包含原始文本和硬分类标签，还提供了由大型语言模型生成的四维概率分布向量。这种设计使数据集兼具传统分类任务所需的明确类别信息，同时保留了文本语义的连续表征空间。数据规模涵盖5993个训练样本，文本长度和主题分布均衡，软标签的引入显著提升了数据集的表达能力和教学价值。

使用方法

使用该数据集时，建议优先采用经过平均处理的版本以获得更稳定的软标签。研究人员可将概率分布直接作为监督信号，设计适合软标签学习的损失函数进行模型训练。在文本分类任务中，软标签可用于知识蒸馏、不确定性建模等场景，通过概率向量的连续特性提升模型对模糊样本的区分能力。加载时需注意保持原始JSON格式的软标签结构，确保概率分布的完整性。

背景与挑战

背景概述

AG-news-softlabels数据集是自然语言处理领域中针对新闻文本分类任务的重要资源，其核心研究问题在于通过软标签技术提升模型对新闻文本多分类的泛化能力。该数据集由研究人员利用Qwen2.5-1.5B-Instruct大语言模型生成，通过概率分布形式标注文本属于'World'、'Sports'、'Business'和'Sci/Tech'四类别的置信度，突破了传统硬标签标注的局限性。这种创新标注方式为研究文本分类中的类别模糊性问题提供了新的实验范式，对推动细粒度文本分类技术的发展具有显著意义。

当前挑战

该数据集面临的核心挑战体现在两个方面：在领域问题层面，新闻文本常存在主题交叉或语义模糊现象，如何准确量化文本与多个类别的相关性成为概率标注的关键难题；在构建过程层面，依赖大语言模型生成软标签时存在稳定性问题，不同模型版本或提示词设计可能导致概率分布偏差，需要设计严谨的验证机制确保标注一致性。此外，软标签的噪声控制与有效利用仍需探索，这对后续模型的鲁棒性训练提出了更高要求。

常用场景

经典使用场景

在自然语言处理领域，AG-news-softlabels数据集为文本分类任务提供了丰富的软标签信息。研究者通过该数据集能够深入探索新闻文章在多类别分类中的概率分布，尤其适用于研究模型在模糊类别边界下的表现。软标签的引入使得模型能够学习到类别间更细微的差异，而非简单的硬分类。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在概率标签的深度学习方法上。研究者们开发了基于软标签的知识蒸馏框架，提升了小模型在文本分类任务中的表现。同时，该数据集也催生了多个针对不确定标签的对抗训练方法，为处理真实世界中的噪声数据提供了新思路。

数据集最近研究