five

News Category Dataset

收藏
arXiv2022-10-07 更新2024-06-21 收录
下载链接:
https://rishabhmisra.github.io/publications/
下载链接
链接失效反馈
官方服务:
资源简介:
新闻类别数据集是由Twitter, Inc的Rishabh Misra创建,包含2012年至2022年间从HuffPost收集的约21万条新闻标题。该数据集不仅提供了新闻标题,还包括了详细的元数据,如新闻类别、发布日期和作者信息,支持多种NLP任务。数据集的创建过程涉及使用开源工具从HuffPost网站上收集和处理数据。该数据集广泛应用于新闻分析、语言模型训练和媒体研究,旨在帮助研究人员和政策制定者理解新闻趋势和公众关注点。

The news classification dataset was created by Rishabh Misra of Twitter, Inc. It encompasses approximately 210,000 news headlines collected from HuffPost between 2012 and 2022. Beyond the news headlines themselves, the dataset provides detailed metadata including news categories, publication dates and author information, supporting a wide range of NLP tasks. The dataset creation process involved collecting and processing data from the HuffPost website using open-source tools. Widely applied in news analysis, language model training and media research, this dataset aims to help researchers and policymakers understand news trends and public concerns.
提供机构:
Twitter, Inc
创建时间:
2022-09-23
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作