AiresPucrs/News-Category-Dataset

Name: AiresPucrs/News-Category-Dataset
Creator: AiresPucrs
Published: 2024-10-13 20:06:25
License: 暂无描述

Hugging Face2024-10-13 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/AiresPucrs/News-Category-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: text dtype: string - name: labels dtype: string splits: - name: train num_bytes: 40031578 num_examples: 209527 download_size: 27470311 dataset_size: 40031578 configs: - config_name: default data_files: - split: train path: data/train-* license: cc-by-4.0 language: - en size_categories: - 100K<n<1M task_categories: - text-classification pretty_name: News Category Dataset --- # News Category Dataset (Teeny-Tiny Castle) This dataset is part of a tutorial tied to the [Teeny-Tiny Castle](https://github.com/Nkluge-correa/TeenyTinyCastle), an open-source repository containing educational tools for AI Ethics and Safety research. ## How to Use ```python from datasets import load_dataset dataset = load_dataset("AiresPucrs/News-Category-Dataset", split = 'train') ```

提供机构：

AiresPucrs

原始信息汇总

News Category Dataset

概述

News Category Dataset 包含来自42个类别的文章，大约21万条从2012年到2022年从HuffPost获取的新闻标题，以及有用的元数据，以支持各种NLP任务。

数据集详情

数据集名称: News Category Dataset
总大小: 209,527条记录
每条记录的属性:
- category: 文章发布的类别
- headline: 新闻文章的标题
- authors: 为文章做出贡献的作者列表
- link: 原始新闻文章的链接
- short description: 新闻文章的摘要
- date: 文章的发布日期

内容

数据集包含一个数据框，具有以下列：

text: 文本
labels: 标签 [字符串]

使用方法

python from datasets import load_dataset

dataset = load_dataset("AiresPucrs/News-Category-Dataset", split="train")

许可证

News Category Dataset 使用 Creative Commons(CC) License CC BY-NC-SA 4.0 许可证。

5,000+

优质数据集

54 个

任务类型

进入经典数据集