five

AG’s Corpus (AG's corpus of news articlesNews)

收藏
OpenDataLab2026-06-07 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/AG_s_Corpus
下载链接
链接失效反馈
官方服务:
资源简介:
Antonio Gulli 的新闻文章语料库包含超过 100 万篇新闻文章。在一年多的活动中,ComeToMyHead 从 2000 多个新闻来源收集了这些文章。 ComeToMyHead 是一个学术新闻搜索引擎,自 2004 年 7 月开始运行。数据集由学术界提供,用于数据挖掘(聚类、分类等)、信息检索(排名、搜索等)、xml、数据压缩、数据流和任何其他非商业活动。该语料库的一个子集 AG News 由 4 个最大的类组成,是一个流行的主题分类数据集。

The news article corpus curated by Antonio Gulli contains over 1 million news articles. Collected over a period of more than one year, these articles were gathered by ComeToMyHead, an academic news search engine that has been operating since July 2004, from more than 2,000 news sources. This dataset is made available by the academic community for applications including data mining (clustering, classification, etc.), information retrieval (ranking, search, etc.), XML, data compression, data streams, and any other non-commercial activities. A subset of this corpus, AG News, which comprises the four largest categories, is a popular topic classification dataset.
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
AG's Corpus是一个包含超过100万篇新闻文章的语料库,由学术新闻搜索引擎ComeToMyHead从2000多个来源收集,适用于数据挖掘和信息检索等非商业学术研究。其子集AG News作为流行的主题分类数据集,包含四个主要类别。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务