shishir-dwi/News-Article-Categorization_IAB

Name: shishir-dwi/News-Article-Categorization_IAB
Creator: shishir-dwi
Published: 2023-09-09 12:10:09
License: 暂无描述

Hugging Face2023-09-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/shishir-dwi/News-Article-Categorization_IAB

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含一系列文章，主要是新闻文章，以及它们对应的IAB（Interactive Advertising Bureau）类别。它可用于多种自然语言处理（NLP）任务，包括文本分类、文本生成等。数据集包含871,909个样本和26个类别，数据格式为两列的表格，分别是文章文本和对应的IAB类别标签。

提供机构：

shishir-dwi

原始信息汇总

IAB Categorization Dataset 概述

基本信息

许可证: Apache-2.0
任务类别:
- 文本分类
- 文本生成
语言: 英语
标签:
- 新闻文章
- IAB分类
- 数据集
- 文章
- IAB
美观名称: IAB分类数据集
数据集大小: 100K<n<1M

数据集详情

样本数量: 871,909
类别数量: 26

列信息

text: 文章文本内容
target: 对应文章的IAB分类标签

IAB分类

IAB（互动广告局）分类是广告行业中用于分类数字广告内容的标准化分类法。这些分类帮助广告商和营销人员更有效地定位其受众。每个分类由一个标签或代码表示，指示内容的主题或主题。

潜在用途

文本分类: 用于训练和评估预测文章IAB分类的文本分类模型。
文本生成: 利用此数据集中的文章作为文本生成任务的来源，如生成新闻标题或摘要。
主题建模: 探索数据集以发现文章中的潜在主题和主题。
信息检索: 构建使用文章内容和分类检索相关文章的搜索引擎或推荐系统。

数据格式

数据集以标准表格格式提供，包含两列："text" 和 "target"。可以使用如pandas等流行的数据处理库在Python中轻松加载和操作数据。

许可证

本数据集根据Apache 2.0许可证提供。在使用数据集之前，请查看许可证。

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集包含871,909篇英文新闻文章，每篇文章标注了对应的IAB（Interactive Advertising Bureau）广告行业标准类别，共26个类别。数据集适用于文本分类和文本生成等自然语言处理任务，特点是数据规模较大且类别标准化，便于模型训练和评估。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集