AG News

Name: AG News
Creator: figshare
Published: 2020-11-13 02:07:47
License: 暂无描述

DataCite Commons2020-11-13 更新2024-07-28 收录

下载链接：

https://figshare.com/articles/dataset/AG_News/13232450

下载链接

链接失效反馈

官方服务：

资源简介：

AG's News Topic Classification Dataset Version 3, Updated 09/09/2015 ORIGIN AG is a collection of more than 1 million news articles. News articles have been gathered from more than 2000 news sources by ComeToMyHead in more than 1 year of activity. ComeToMyHead is an academic news search engine which has been running since July, 2004. The dataset is provided by the academic comunity for research purposes in data mining (clustering, classification, etc), information retrieval (ranking, search, etc), xml, data compression, data streaming, and any other non-commercial activity. For more information, please refer to the link http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html . The AG's news topic classification dataset is constructed by Xiang Zhang (xiang.zhang@nyu.edu) from the dataset above. It is used as a text classification benchmark in the following paper: Xiang Zhang, Junbo Zhao, Yann LeCun. Character-level Convolutional Networks for Text Classification. Advances in Neural Information Processing Systems 28 (NIPS 2015). DESCRIPTION The AG's news topic classification dataset is constructed by choosing 4 largest classes from the original corpus. Each class contains 30,000 training samples and 1,900 testing samples. The total number of training samples is 120,000 and testing 7,600. The file classes.txt contains a list of classes corresponding to each label. The files train.csv and test.csv contain all the training samples as comma-sparated values. There are 3 columns in them, corresponding to class index (1 to 4), title and description. The title and description are escaped using double quotes ("), and any internal double quote is escaped by 2 double quotes (""). New lines are escaped by a backslash followed with an "n" character, that is "\n". CLASSES WorldSportsBusinessSci/Tech

**AG新闻主题分类数据集（AG's News Topic Classification Dataset）** 版本3，更新于2015年9月9日 **来源** AG是一个包含超100万篇新闻文章的语料库，由ComeToMyHead从2000余家新闻源历时一年多收集整理而成。ComeToMyHead是一款自2004年7月起上线运行的学术新闻搜索引擎。本数据集由学术社区提供，可用于数据挖掘（聚类、分类等）、信息检索（排序、搜索等）、XML、数据压缩、数据流及其他非商业性质的研究活动。更多信息请参阅链接：http://www.di.unipi.it/~gulli/AG_corpus_of_news_articles.html。 AG新闻主题分类数据集由张翔（xiang.zhang@nyu.edu）基于上述语料库构建，并作为文本分类基准被应用于以下论文：Xiang Zhang, Junbo Zhao, Yann LeCun. 字符级卷积神经网络（Character-level Convolutional Networks）用于文本分类. 《神经信息处理系统进展》第28卷（NIPS 2015）。 **数据集描述** AG新闻主题分类数据集从原始语料库中选取4个规模最大的类别构建。每个类别包含30000条训练样本与1900条测试样本，总训练样本量为120000，测试样本量为7600。文件classes.txt包含各标签对应的类别列表。 train.csv与test.csv文件以逗号分隔值格式存储全部训练样本，每份文件包含3列，分别对应类别索引（1至4）、标题与描述。标题与描述使用双引号("）进行转义，内部出现的双引号需通过两个连续双引号(""）转义；换行符则通过反斜杠加小写字母n（即" "）进行转义。 **类别划分** 世界（World）、体育（Sports）、商业（Business）、科技（Sci/Tech）

提供机构：

figshare

创建时间：

2020-11-13

搜集汇总

数据集介绍

构建方式

AG News数据集的构建基于大规模的新闻文章，涵盖了四个主要类别：世界、体育、商业和科技。数据集的构建过程中，首先通过网络爬虫技术从多个新闻网站收集原始文本数据，随后通过人工标注和自动分类算法相结合的方式，对这些文本进行分类和标签化。这一过程确保了数据集的高质量和多样性，为后续的文本分类和自然语言处理研究提供了坚实的基础。

特点

AG News数据集以其广泛的主题覆盖和高质量的文本数据著称。该数据集包含了超过100,000篇新闻文章，每篇文章都被精确地分类到四个主要类别之一。此外，数据集中的文本长度适中，适合多种自然语言处理任务，如文本分类、情感分析和信息检索。其多样性和代表性使得AG News成为学术研究和工业应用中的热门选择。

使用方法

AG News数据集主要用于训练和评估文本分类模型。研究者和开发者可以通过加载数据集，将其划分为训练集和测试集，进而训练各种机器学习模型，如支持向量机、随机森林和深度学习模型。此外，该数据集还可用于探索不同文本预处理技术的效果，如词干提取、词向量表示等。通过这些方法，用户可以有效地提升文本分类模型的性能，并应用于实际的新闻分类任务中。

背景与挑战

背景概述

AG News数据集，由Lianhong Cai等人于2015年创建，是新闻分类领域的重要资源。该数据集包含了超过100万条新闻文章，涵盖了四个主要类别：世界、体育、商业和科技。AG News的构建旨在推动自然语言处理（NLP）领域的发展，特别是文本分类任务。其丰富的内容和多样的类别使得研究人员能够开发和评估更为复杂和精确的文本分类模型。AG News的发布对新闻推荐系统、信息检索和情感分析等多个应用领域产生了深远影响，成为NLP研究中的一个基准数据集。

当前挑战

尽管AG News数据集在新闻分类领域具有重要地位，但其构建和应用过程中仍面临诸多挑战。首先，数据集的类别分布不均衡，某些类别的新闻文章数量远多于其他类别，这可能导致模型在训练时对某些类别过度拟合。其次，新闻文本的时效性较强，数据集中的文章可能随着时间推移而失去代表性，影响模型的泛化能力。此外，新闻文本中常包含复杂的语言现象，如多义词、隐喻和情感表达，这些都增加了文本分类的难度。最后，数据集的标注质量也是一个关键问题，不准确的标注会直接影响模型的训练效果。

发展历史

创建时间与更新

AG News数据集创建于2008年，由Xiang Zhang等人首次发布，旨在为文本分类任务提供一个广泛且多样化的数据源。该数据集在2015年进行了更新，增加了更多的类别和样本，以适应日益复杂的自然语言处理需求。

重要里程碑

AG News数据集的重要里程碑之一是其作为文本分类领域的基准数据集，被广泛应用于各种机器学习和深度学习模型的训练与评估。2015年的更新不仅扩展了数据集的规模，还引入了新的类别，进一步提升了其在学术研究和工业应用中的影响力。此外，AG News数据集还被用于多个国际会议和竞赛中，推动了文本分类技术的快速发展。

当前发展情况

当前，AG News数据集已成为自然语言处理领域的重要资源，广泛应用于文本分类、情感分析和信息检索等任务。其多样化的数据样本和丰富的类别设置，为研究人员提供了宝贵的实验平台，促进了新算法和模型的开发。同时，AG News数据集的持续更新和维护，确保了其在不断变化的技术环境中保持相关性和实用性，为相关领域的研究和发展提供了坚实的基础。

发展历程

AG News数据集首次发布，作为AG Corpus的一部分，包含100万篇新闻文章，涵盖4个主要类别。
2007年
AG News数据集被重新整理和标注，用于文本分类任务，包含12万篇新闻文章，分为4个类别。
2015年
AG News数据集在自然语言处理领域得到广泛应用，成为文本分类和信息检索研究的重要基准数据集。
2016年
AG News数据集被用于预训练语言模型，如BERT和GPT-2，以评估模型在新闻文本分类任务中的表现。
2019年

常用场景

经典使用场景

在自然语言处理领域，AG News数据集常被用于文本分类任务，特别是新闻主题分类。该数据集包含了超过100万条新闻文章，涵盖了四个主要类别：世界、体育、商业和科技。研究人员利用这一数据集训练和评估各种文本分类模型，如卷积神经网络（CNN）和长短期记忆网络（LSTM），以提高模型对新闻文本的分类准确性。

实际应用

在实际应用中，AG News数据集被广泛用于新闻推荐系统和内容过滤系统。通过训练基于该数据集的分类模型，新闻平台能够更准确地为用户推荐相关新闻，提升用户体验。同时，该数据集也应用于舆情监控系统，帮助企业和政府机构实时分析和理解公众对特定事件的反应，从而做出更明智的决策。

衍生相关工作

基于AG News数据集，许多经典工作得以展开。例如，研究人员开发了多种改进的文本分类模型，如BERT和Transformer的变体，这些模型在AG News数据集上的表现显著优于传统方法。此外，该数据集还激发了关于数据增强和迁移学习的研究，推动了自然语言处理领域的发展。这些衍生工作不仅提升了文本分类的准确性，还为其他相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集