five

shishir-dwi/News-Article-Categorization_IAB

收藏
Hugging Face2023-09-09 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/shishir-dwi/News-Article-Categorization_IAB
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集包含一系列文章,主要是新闻文章,以及它们对应的IAB(Interactive Advertising Bureau)类别。它可用于多种自然语言处理(NLP)任务,包括文本分类、文本生成等。数据集包含871,909个样本和26个类别,数据格式为两列的表格,分别是文章文本和对应的IAB类别标签。

该数据集包含一系列文章,主要是新闻文章,以及它们对应的IAB(Interactive Advertising Bureau)类别。它可用于多种自然语言处理(NLP)任务,包括文本分类、文本生成等。数据集包含871,909个样本和26个类别,数据格式为两列的表格,分别是文章文本和对应的IAB类别标签。
提供机构:
shishir-dwi
原始信息汇总

IAB Categorization Dataset 概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 文本分类
    • 文本生成
  • 语言: 英语
  • 标签:
    • 新闻文章
    • IAB分类
    • 数据集
    • 文章
    • IAB
  • 美观名称: IAB分类数据集
  • 数据集大小: 100K<n<1M

数据集详情

  • 样本数量: 871,909
  • 类别数量: 26

列信息

  • text: 文章文本内容
  • target: 对应文章的IAB分类标签

IAB分类

IAB(互动广告局)分类是广告行业中用于分类数字广告内容的标准化分类法。这些分类帮助广告商和营销人员更有效地定位其受众。每个分类由一个标签或代码表示,指示内容的主题或主题。

潜在用途

  • 文本分类: 用于训练和评估预测文章IAB分类的文本分类模型。
  • 文本生成: 利用此数据集中的文章作为文本生成任务的来源,如生成新闻标题或摘要。
  • 主题建模: 探索数据集以发现文章中的潜在主题和主题。
  • 信息检索: 构建使用文章内容和分类检索相关文章的搜索引擎或推荐系统。

数据格式

数据集以标准表格格式提供,包含两列:"text" 和 "target"。可以使用如pandas等流行的数据处理库在Python中轻松加载和操作数据。

许可证

本数据集根据Apache 2.0许可证提供。在使用数据集之前,请查看许可证。

搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集包含871,909篇英文新闻文章,每篇文章标注了对应的IAB(Interactive Advertising Bureau)广告行业标准类别,共26个类别。数据集适用于文本分类和文本生成等自然语言处理任务,特点是数据规模较大且类别标准化,便于模型训练和评估。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作