AGs News Topic Classification Dataset

github2020-02-22 更新2024-05-31 收录

下载链接：

https://github.com/tsu3010/text-datasets

下载链接

链接失效反馈

官方服务：

资源简介：

AG新闻主题分类数据集是由Xiang Zhang从原始数据集中构建的，选择了最大的4个类别，每个类别包含30,000个训练样本和1,900个测试样本。总共有120,000个训练样本和7,600个测试样本。该数据集用于文本分类基准，特别是在Xiang Zhang等人的论文中用作Character-level Convolutional Networks for Text Classification的研究。

The AG News Topic Classification Dataset was constructed by Xiang Zhang from the original dataset, selecting the largest four categories, each containing 30,000 training samples and 1,900 test samples. In total, there are 120,000 training samples and 7,600 test samples. This dataset is used for text classification benchmarks, particularly in the research of Character-level Convolutional Networks for Text Classification as presented in the paper by Xiang Zhang et al.

创建时间：

2020-02-18

原始信息汇总

AGs News Topic Classification Dataset 概述

数据集版本与更新

版本：3
更新日期：2015年9月9日

数据集来源

来源：AG新闻文章集合，由ComeToMyHead收集，该引擎自2004年7月运行，收集了超过2000个新闻来源的100多万篇新闻文章。
用途：主要用于数据挖掘、信息检索等学术研究，非商业用途。

数据集构建

构建者：Xiang Zhang (xiang.zhang@nyu.edu)
引用论文：Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015).

数据集描述

分类：从原始语料库中选择了4个最大的类别。
样本数量：每个类别包含30,000个训练样本和1,900个测试样本。总训练样本数为120,000，测试样本数为7,600。
文件内容：
- classes.txt：包含与每个标签对应的类别列表。
- train.csv 和 test.csv：包含所有训练和测试样本，格式为逗号分隔值。文件中包含3列，分别是类别索引（1至4）、标题和描述。标题和描述使用双引号(")进行转义，内部的双引号通过两个双引号("")转义，换行符通过" "转义。

搜集汇总

数据集介绍

构建方式

AGs News Topic Classification Dataset是由纽约大学Xiang Zhang基于ComeToMyHead学术新闻搜索引擎收集的超过100万篇新闻文章构建而成。该数据集通过挑选原始语料库中最大的四个类别，分别为每个类别选取了30,000个训练样本和1,900个测试样本，总计训练样本120,000个，测试样本7,600个，旨在为文本分类研究提供基准数据集。

特点

该数据集的特点在于来源广泛，涵盖了超过2,000个新闻源，且经过一年多的收集整理。此外，数据集以csv格式存储，包含类别索引、标题和描述三个字段，且对于特殊字符进行了适当的转义处理，方便后续的数据处理和模型训练。

使用方法

用户可以直接从提供的数据集中获取训练和测试样本，数据集以逗号分隔值形式存储，类别索引、标题和描述等字段清晰明了。在使用时，用户需注意数据中的特殊字符转义规则，并根据实际需要设计相应的文本预处理流程和分类模型。

背景与挑战

背景概述

AGs News Topic Classification Dataset，这是一个在文本分类领域被广泛使用的标准数据集，由纽约大学的Xiang Zhang在2015年构建。该数据集源自ComeToMyHead搜集的超过一百万篇新闻文章，这些文章来自2000多个新闻源，历经一年多的搜集。该数据集的构建，旨在为数据挖掘、信息检索、XML处理、数据压缩、数据流等领域的研究提供基准数据，对相关学术领域产生了深远影响。

当前挑战

该数据集面临的挑战主要在于：1) 如何在文本分类任务中处理大规模数据集，提高分类的准确性和效率；2) 数据集中文本的多样性和复杂性给特征提取和模型训练带来了困难；3) 构建过程中，如何从大量的原始数据中筛选出具有代表性的类别和样本，保持数据集的质量和平衡性。

常用场景

经典使用场景

在文本分类研究领域，AG's News Topic Classification Dataset被广泛作为基准数据集。该数据集挑选了原始语料库中的四个最大类别，构建了一个包含12万训练样本和7600个测试样本的集合，旨在评估文本分类模型的性能，尤其是字符级卷积神经网络在此类任务上的有效性。

解决学术问题

该数据集解决了文本分类中跨领域、多类别的分类问题，为学术研究提供了标准化、大规模的实验平台。通过该数据集，研究者能够探索和比较不同分类算法的性能，促进了对文本特征提取和模型构建技术的深入研究。

衍生相关工作

基于该数据集，已衍生出一系列相关工作，包括但不限于对字符级卷积神经网络结构的优化、文本表示方法的改进，以及跨语言文本分类的研究。这些工作进一步推动了文本分类领域的发展，丰富了相关研究的理论体系。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集