five

AiresPucrs/News-Category-Dataset

收藏
Hugging Face2024-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AiresPucrs/News-Category-Dataset
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: text dtype: string - name: labels dtype: string splits: - name: train num_bytes: 40031578 num_examples: 209527 download_size: 27470311 dataset_size: 40031578 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-4.0 language: - en size_categories: - 100K<n<1M task_categories: - text-classification pretty_name: News Category Dataset --- # News Category Dataset (Teeny-Tiny Castle) This dataset is part of a tutorial tied to the [Teeny-Tiny Castle](https://github.com/Nkluge-correa/TeenyTinyCastle), an open-source repository containing educational tools for AI Ethics and Safety research. ## How to Use ```python from datasets import load_dataset dataset = load_dataset("AiresPucrs/News-Category-Dataset", split = 'train') ```
提供机构:
AiresPucrs
原始信息汇总

News Category Dataset

概述

News Category Dataset 包含来自42个类别的文章,大约21万条从2012年到2022年从HuffPost获取的新闻标题,以及有用的元数据,以支持各种NLP任务。

数据集详情

  • 数据集名称: News Category Dataset
  • 总大小: 209,527条记录
  • 每条记录的属性:
    • category: 文章发布的类别
    • headline: 新闻文章的标题
    • authors: 为文章做出贡献的作者列表
    • link: 原始新闻文章的链接
    • short description: 新闻文章的摘要
    • date: 文章的发布日期

内容

数据集包含一个数据框,具有以下列:

  • text: 文本
  • labels: 标签 [字符串]

使用方法

python from datasets import load_dataset

dataset = load_dataset("AiresPucrs/News-Category-Dataset", split="train")

许可证

News Category Dataset 使用 Creative Commons(CC) License CC BY-NC-SA 4.0 许可证。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作