five

topic-labeled-news-dataset|新闻数据数据集|多领域分析数据集

收藏
github2024-04-11 更新2024-05-31 收录
新闻数据
多领域分析
下载链接:
https://github.com/kotartemiy/topic-labeled-news-dataset
下载链接
链接失效反馈
资源简介:
包含超过100k篇主题标记的新闻文章,涵盖8个不同的新闻主题,如商业、娱乐、健康、国家、科学、体育、技术和世界。这些文章由数千个不同的新闻网站发布,主要集中在2020年8月的前半部分。

This dataset comprises over 100,000 thematically tagged news articles, spanning eight distinct news categories such as business, entertainment, health, national affairs, science, sports, technology, and world news. These articles were published by thousands of different news websites, primarily during the first half of August 2020.
创建时间:
2020-08-18
原始信息汇总

topic-labeled-news-dataset

概述

本数据集包含超过100,000篇主题标记的新闻文章,涵盖8个不同的新闻主题,由数千个新闻网站发布。

内容详情

  • BUSINESS:15,000篇
  • ENTERTAINMENT:15,000篇
  • HEALTH:15,000篇
  • NATION:15,000篇
  • SCIENCE:3,774篇
  • SPORTS:15,000篇
  • TECHNOLOGY:15,000篇
  • WORLD:15,000篇

这些文章均发布于2020年8月的前半部分。除SCIENCE主题外,其他每个主题均包含15,000篇文章。

AI搜集汇总
数据集介绍
main_image_url
构建方式
该数据集由NewsCatcher团队精心构建,通过从数千个新闻网站中收集并索引新闻文章,形成了一个包含超过10万篇新闻文章的庞大数据库。这些文章涵盖了8个不同的新闻主题,包括商业、娱乐、健康、国家、科学、体育、科技和世界新闻。所有主题的文章数量均达到15,000篇,除了科学主题的文章数量为3,774篇。这些文章均在2020年8月的前半部分发布,确保了数据的时间相关性和时效性。
特点
该数据集的显著特点在于其广泛的主题覆盖和均衡的文章分布。每个主题均包含大量文章,确保了数据集的多样性和代表性。此外,数据集中的文章来自数千个不同的新闻网站,这不仅增加了数据的广度,也提高了数据的可靠性。科学主题的少量文章反映了该领域的特定需求和挑战,使得数据集在多样性中不失专业性。
使用方法
该数据集适用于多种自然语言处理任务,如文本分类、主题建模和情感分析等。用户可以通过NewsCatcher提供的API或直接下载数据集进行分析。为了更好地利用数据集,用户可以结合NewsCatcher团队提供的其他工具,如newscatcher Py包和pygooglenews库,这些工具可以帮助用户从几乎任何网站程序化地收集和标准化新闻数据,从而扩展和深化数据集的应用。
背景与挑战
背景概述
topic-labeled-news-dataset由NewsCatcher团队创建,该团队专注于新闻文章的收集与索引,并提供相关的新闻API服务。该数据集包含了2020年8月上半月发布的超过10万篇新闻文章,涵盖了8个不同的新闻主题,包括商业、娱乐、健康、国家、科学、体育、科技和世界。每个主题的文章数量大致相同,除了科学主题的文章数量为3774篇。这些文章来源于数千个不同的新闻网站,旨在为新闻分类和主题分析提供丰富的数据资源。
当前挑战
该数据集的主要挑战在于其构建过程中需要从大量不同的新闻网站中收集和标准化新闻文章,确保数据的多样性和代表性。此外,由于新闻主题的多样性,如何准确地对每篇文章进行主题标注也是一个重要的挑战。尽管数据集已经涵盖了多个主题,但科学主题的文章数量较少,可能影响在该领域的分析效果。此外,新闻数据的时效性要求数据集的更新频率较高,以保持其研究价值和实用性。
常用场景
经典使用场景
在自然语言处理领域,topic-labeled-news-dataset 数据集被广泛用于新闻文本的主题分类任务。通过该数据集,研究者可以训练和评估分类模型,以自动识别和分类新闻文章的主题,如商业、娱乐、健康等。这一应用场景不仅有助于提升新闻内容的自动化处理能力,还为新闻推荐系统提供了基础数据支持。
实际应用
在实际应用中,topic-labeled-news-dataset 数据集被用于构建智能新闻推荐系统、舆情监控工具和自动化新闻编辑助手。这些应用不仅提高了新闻内容的处理效率,还为用户提供了个性化的新闻阅读体验,增强了新闻平台的竞争力和用户粘性。
衍生相关工作
基于该数据集,研究者们开展了多项经典工作,包括改进的文本分类算法、多标签学习模型和新闻主题演化分析等。这些工作不仅丰富了自然语言处理领域的研究内容,还为新闻行业的技术进步提供了理论和实践支持。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

2000-2018年中国典型生态系统植物生长节律数据

该数据集涵盖了森林、草地、荒漠、沼泽、农田生态系统2000年-2020年CERN长期定位监测的植物物候数据和主要作生育期数据,包括木本植物、草本植物、水稻、小麦、玉米物候数据表,木本植物数据表有18个台站、291个物种的芽开放期、展叶期、开花始期、开花盛期、果实或种子成熟期、叶秋季变色期和落叶期共计3814条记录;草本植物数据表有22个台站、312个物种的萌动期、开花期、果实或种子成熟期、种子散布期和黄枯期共计3032条数据;水稻数据表有9个台站的出苗期、拔节期、蜡熟期等10个生育期共551条记录;小麦数据表有9个台站不同生育期382条记录;玉米数据表有18个台站不同生育期532条数据。

地球大数据科学工程 收录

COVID-19 Data Hub

COVID-19 Data Hub是一个全球性的COVID-19数据集,包含了来自多个国家和地区的疫情数据,涵盖了病例数、死亡数、康复数、测试数等信息。此外,数据集还包括了与疫情相关的经济、社会和政策数据。

covid19datahub.io 收录

中国高分辨率高质量PM2.5数据集(2000-2023)

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集(ChinaHighAirPollutants, CHAP)中PM2.5数据集。该数据集利用人工智能技术,使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值,结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92,均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区,空间分辨率为1 km,时间分辨率为日、月、年,单位为µg/m3。注意:该数据集持续更新,如需要更多数据,请发邮件联系作者(weijing_rs@163.com; weijing@umd.edu)。 数据文件中包含NC转GeoTiff的四种代码(Python、Matlab、IDL和R语言)nc2geotiff codes。

国家青藏高原科学数据中心 收录

FER2013

FER2013数据集是一个广泛用于面部表情识别领域的数据集,包含28,709个训练样本和7,178个测试样本。图像属性为48x48像素,标签包括愤怒、厌恶、恐惧、快乐、悲伤、惊讶和中性。

github 收录