【我遇到的问题】 • 现象:该数据集的下载链接已失效 【相关信息】 • 可考虑访问这个链接获取类似文件~https://www.selectdataset.com/dataset/3688356173feccbcf1f1e490ddc6bc72
开放新闻库(OpenNewsArchive)
收藏OpenDataLab2026-05-10 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/OpenNewsArchive
下载链接
链接失效反馈官方服务:
资源简介:
此开放新闻库数据集是由OpenDataLab、联合蜜度、商汤等多家联盟机构进行开源开发,其中包含了880万篇新闻文章的信息,涵盖了各种不同主题和来源的新闻内容。
This open news repository dataset was developed in an open-source manner by multiple alliance institutions including OpenDataLab, Midu, SenseTime and other organizations. It contains information on 8.8 million news articles, covering news content across a diverse array of topics and sources.
提供机构:
OpenDataLab
创建时间:
2024-04-28
搜集汇总
数据集介绍

背景与挑战
背景概述
开放新闻库数据集是一个包含880万篇新闻文章的大规模文本语料库,覆盖财经、健康、体育等多个板块,主要语言为中文和英文。数据集经过严格的清洗处理,去除HTML标签、无效文本和重复内容,确保数据纯净和高质量,且新闻内容主要为2023年发布,具有时效性,适用于文本预训练和语言模型研究。
以上内容由遇见数据集搜集并总结生成



