基于2000 多家全球主流媒体数据源的新闻数据集
收藏国家基础学科公共科学数据中心2026-01-30 收录
下载链接:
https://nbsdc.cn/general/dataDetail?id=67d50cdb195d260905af9549&type=1
下载链接
链接失效反馈官方服务:
资源简介:
本数据集覆盖全球主流媒体数据源2419家,包括境内外国家级、地区级、行业级、机构级等主流媒体平台;支持语言不少于10种,包括中、英、法、德、日、俄、西、阿、葡、印等全球10大主流语言。每天会有10w条以上的新闻入库用于向用户推荐感兴趣结果。由于本数据量过于庞大的,本次仅提供2024年10月14日到2024年10月20日一周的数据作为样例。
This dataset covers 2419 global mainstream media data sources, including national, regional, industry-specific and institutional mainstream media platforms both domestic and overseas. It supports no fewer than 10 languages, among which are the world's top 10 mainstream languages such as Chinese, English, French, German, Japanese, Russian, Spanish, Arabic, Portuguese and Hindi. Over 100,000 news articles are ingested into the dataset daily to deliver personalized recommended results to users. Due to the massive scale of the full dataset, only the one-week sample data spanning October 14 to October 20, 2024 is provided for this release.
提供机构:
北京中科闻歌科技股份有限公司
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集汇集了来自全球2419家主流媒体的新闻,涵盖10种以上语言,每日更新超过10万条。本次提供的是2024年10月14日至20日的一周样例数据。
以上内容由遇见数据集搜集并总结生成



