RealNews
收藏OpenDataLab2026-04-05 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/RealNews
下载链接
链接失效反馈资源简介:
RealNews是来自Common Crawl的大量新闻文章。数据是从通用爬网中抓取的,仅限于Google新闻索引的5000新闻域。作者使用报纸Python库从每篇文章中提取正文和元数据。从2016年12月到2019年3月的常见爬网转储的新闻被用作训练数据; 2019年4月转储2019年4月发表的文章被用于评估。重复数据删除后,RealNews在没有压缩的情况下120千兆字节。
RealNews is a large-scale news corpus sourced from Common Crawl. The dataset was crawled from the general web, restricted to the 5000 news domains indexed by Google News. The authors used the newspaper Python library to extract the main body text and metadata from each article. News from Common Crawl dumps spanning December 2016 to March 2019 was utilized as training data; articles published in April 2019 from the April 2019 Common Crawl dump were employed for evaluation. Following deduplication, the uncompressed size of RealNews is 120 gigabytes.
提供机构:
OpenDataLab
创建时间:
2022-06-07
AI搜集汇总
数据集介绍

背景与挑战
背景概述
RealNews是一个基于Common Crawl构建的大规模新闻文章数据集,专门从Google新闻索引的5000个新闻域中提取,涵盖2016年12月至2019年3月的文章用于训练,2019年4月的文章用于评估,总大小为46.4GB。该数据集主要用于文本生成、虚假新闻检测和语言建模等自然语言处理任务,由华盛顿大学·艾伦人工智能研究所于2020年发布,支持AIGC和预训练语言模型开发。
以上内容由AI搜集并总结生成



