shishir-dwi/News-Article-Categorization_IAB
收藏Hugging Face2023-09-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shishir-dwi/News-Article-Categorization_IAB
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含一系列文章,主要是新闻文章,以及它们对应的IAB(Interactive Advertising Bureau)类别。它可用于多种自然语言处理(NLP)任务,包括文本分类、文本生成等。数据集包含871,909个样本和26个类别,数据格式为两列的表格,分别是文章文本和对应的IAB类别标签。
该数据集包含一系列文章,主要是新闻文章,以及它们对应的IAB(Interactive Advertising Bureau)类别。它可用于多种自然语言处理(NLP)任务,包括文本分类、文本生成等。数据集包含871,909个样本和26个类别,数据格式为两列的表格,分别是文章文本和对应的IAB类别标签。
提供机构:
shishir-dwi
原始信息汇总
IAB Categorization Dataset 概述
基本信息
- 许可证: Apache-2.0
- 任务类别:
- 文本分类
- 文本生成
- 语言: 英语
- 标签:
- 新闻文章
- IAB分类
- 数据集
- 文章
- IAB
- 美观名称: IAB分类数据集
- 数据集大小: 100K<n<1M
数据集详情
- 样本数量: 871,909
- 类别数量: 26
列信息
- text: 文章文本内容
- target: 对应文章的IAB分类标签
IAB分类
IAB(互动广告局)分类是广告行业中用于分类数字广告内容的标准化分类法。这些分类帮助广告商和营销人员更有效地定位其受众。每个分类由一个标签或代码表示,指示内容的主题或主题。
潜在用途
- 文本分类: 用于训练和评估预测文章IAB分类的文本分类模型。
- 文本生成: 利用此数据集中的文章作为文本生成任务的来源,如生成新闻标题或摘要。
- 主题建模: 探索数据集以发现文章中的潜在主题和主题。
- 信息检索: 构建使用文章内容和分类检索相关文章的搜索引擎或推荐系统。
数据格式
数据集以标准表格格式提供,包含两列:"text" 和 "target"。可以使用如pandas等流行的数据处理库在Python中轻松加载和操作数据。
许可证
本数据集根据Apache 2.0许可证提供。在使用数据集之前,请查看许可证。
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含871,909篇英文新闻文章,每篇文章标注了对应的IAB(Interactive Advertising Bureau)广告行业标准类别,共26个类别。数据集适用于文本分类和文本生成等自然语言处理任务,特点是数据规模较大且类别标准化,便于模型训练和评估。
以上内容由遇见数据集搜集并总结生成



