five

RealNews

收藏
魔搭社区2025-12-13 更新2024-08-31 收录
下载链接:
https://modelscope.cn/datasets/OpenDataLab/RealNews
下载链接
链接失效反馈
官方服务:
资源简介:
displayName: RealNews license: - Apache 2.0 taskTypes: - Natural Language Generation - Fake News Detection - Language Modelling - Pretrained Language Models mediaTypes: - Text - Web labelTypes: - English Corpus tags: - attrs: null id: 167 name: en: Text zh: 文本 publisher: - University of Washington - Allen Institute for Artificial Intelligence publishDate: '2020-11-11' publishUrl: https://rowanzellers.com/grover/ paperUrl: https://arxiv.org/pdf/1905.12616v3.pdf --- # 数据集介绍 ## 简介 RealNews是来自Common Crawl的大量新闻文章。数据是从通用爬网中抓取的,仅限于Google新闻索引的5000新闻域。作者使用报纸Python库从每篇文章中提取正文和元数据。从2016年12月到2019年3月的常见爬网转储的新闻被用作训练数据; 2019年4月转储2019年4月发表的文章被用于评估。重复数据删除后,RealNews在没有压缩的情况下120千兆字节。 ## 引文 ``` @article{zellers2019defending, title={Defending against neural fake news}, author={Zellers, Rowan and Holtzman, Ari and Rashkin, Hannah and Bisk, Yonatan and Farhadi, Ali and Roesner, Franziska and Choi, Yejin}, journal={Advances in neural information processing systems}, volume={32}, year={2019} } ``` ## Download dataset :modelscope-code[]{type="git"}

displayName: 真实新闻(RealNews) license: - Apache 2.0 taskTypes: - 自然语言生成 - 虚假新闻检测 - 语言建模 - 预训练语言模型 mediaTypes: - 文本 - 网页 labelTypes: - 英语语料库 tags: - attrs: null id: 167 name: en: Text zh: 文本 publisher: - 华盛顿大学 - 艾伦人工智能研究所 publishDate: '2020-11-11' publishUrl: https://rowanzellers.com/grover/ paperUrl: https://arxiv.org/pdf/1905.12616v3.pdf --- # 数据集介绍 ## 简介 RealNews(真实新闻)是源自Common Crawl的海量新闻文章数据集。该数据集通过通用网络爬取获取,仅覆盖谷歌新闻索引内的5000个新闻域名。研究人员借助Newspaper Python库从每篇文章中提取正文内容与元数据。训练数据采用2016年12月至2019年3月的Common Crawl转储新闻;评估数据则使用2019年4月转储的、发布于2019年4月的新闻文章。经去重处理后,未压缩的RealNews数据集总容量达120吉字节。 ## 引文 @article{zellers2019defending, title={抵御神经虚假新闻}, author={Zellers, Rowan and Holtzman, Ari and Rashkin, Hannah and Bisk, Yonatan and Farhadi, Ali and Roesner, Franziska and Choi, Yejin}, journal={神经信息处理系统进展}, volume={32}, year={2019} } ## 下载数据集 :modelscope-code[]{type="git"}
提供机构:
maas
创建时间:
2024-07-16
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作