AiresPucrs/News-Category-Dataset
收藏Hugging Face2024-10-13 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/AiresPucrs/News-Category-Dataset
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: text
dtype: string
- name: labels
dtype: string
splits:
- name: train
num_bytes: 40031578
num_examples: 209527
download_size: 27470311
dataset_size: 40031578
configs:
- config_name: default
data_files:
- split: train
path: data/train-*
license: cc-by-4.0
language:
- en
size_categories:
- 100K<n<1M
task_categories:
- text-classification
pretty_name: News Category Dataset
---
# News Category Dataset (Teeny-Tiny Castle)
This dataset is part of a tutorial tied to the [Teeny-Tiny Castle](https://github.com/Nkluge-correa/TeenyTinyCastle), an open-source repository containing educational tools for AI Ethics and Safety research.
## How to Use
```python
from datasets import load_dataset
dataset = load_dataset("AiresPucrs/News-Category-Dataset", split = 'train')
```
提供机构:
AiresPucrs
原始信息汇总
News Category Dataset
概述
News Category Dataset 包含来自42个类别的文章,大约21万条从2012年到2022年从HuffPost获取的新闻标题,以及有用的元数据,以支持各种NLP任务。
数据集详情
- 数据集名称: News Category Dataset
- 总大小: 209,527条记录
- 每条记录的属性:
- category: 文章发布的类别
- headline: 新闻文章的标题
- authors: 为文章做出贡献的作者列表
- link: 原始新闻文章的链接
- short description: 新闻文章的摘要
- date: 文章的发布日期
内容
数据集包含一个数据框,具有以下列:
- text: 文本
- labels: 标签 [字符串]
使用方法
python from datasets import load_dataset
dataset = load_dataset("AiresPucrs/News-Category-Dataset", split="train")
许可证
News Category Dataset 使用 Creative Commons(CC) License CC BY-NC-SA 4.0 许可证。



