five

开放新闻库(OpenNewsArchive)|新闻文本数据集|预训练数据集数据集

收藏
OpenDataLab2026-01-17 更新2024-05-09 收录
新闻文本
预训练数据集
下载链接:
https://opendatalab.org.cn/OpenDataLab/OpenNewsArchive
下载链接
链接失效反馈
资源简介:
此开放新闻库数据集是由OpenDataLab、联合蜜度、商汤等多家联盟机构进行开源开发,其中包含了880万篇新闻文章的信息,涵盖了各种不同主题和来源的新闻内容。
提供机构:
OpenDataLab
创建时间:
2024-04-28
AI搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
开放新闻库数据集是一个包含880万篇新闻文章的大规模文本语料库,覆盖财经、健康、体育等多个板块,主要语言为中文和英文。数据集经过严格的清洗处理,去除HTML标签、无效文本和重复内容,确保数据纯净和高质量,且新闻内容主要为2023年发布,具有时效性,适用于文本预训练和语言模型研究。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作