RealNews|新闻分析数据集|自然语言处理数据集

Papers with Code2024-05-15 收录

新闻分析

自然语言处理

下载链接：

https://paperswithcode.com/dataset/realnews

下载链接

链接失效反馈

资源简介：

RealNews is a large corpus of news articles from Common Crawl. Data is scraped from Common Crawl, limited to the 5000 news domains indexed by Google News. The authors used the Newspaper Python library to extract the body and metadata from each article. News from Common Crawl dumps from December 2016 through March 2019 were used as training data; articles published in April 2019 from the April 2019 dump were used for evaluation. After deduplication, RealNews is 120 gigabytes without compression.

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4099个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国劳动力动态调查

“中国劳动力动态调查” （China Labor-force Dynamics Survey，简称 CLDS）是“985”三期“中山大学社会科学特色数据库建设”专项内容，CLDS的目的是通过对中国城乡以村/居为追踪范围的家庭、劳动力个体开展每两年一次的动态追踪调查，系统地监测村/居社区的社会结构和家庭、劳动力个体的变化与相互影响，建立劳动力、家庭和社区三个层次上的追踪数据库，从而为进行实证导向的高质量的理论研究和政策研究提供基础数据。

中国学术调查数据资料库收录

The Sol Genomics Network (SGN)

The Sol Genomics Network (SGN) 是一个专注于茄科植物基因组学研究的在线数据库和资源平台。该数据集包含了大量关于番茄、马铃薯、辣椒等茄科植物的基因组、遗传图谱、分子标记、QTL（数量性状位点）分析、表达数据以及相关文献等信息。SGN 旨在促进茄科植物的遗传学和基因组学研究，支持全球科研人员进行数据共享和合作。

solgenomics.net 收录

stanford_cars

该数据集是一个包含多个汽车品牌和型号的图片数据集，每个图片样本都标记有相应的汽车品牌和型号信息。数据集适用于图像识别和分类任务，特别是汽车品牌和型号的识别。

huggingface 收录

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国区域250米植被覆盖度数据集（2000-2024）

该数据集是中国区域2000至2024年月度植被覆盖度产品，空间分辨率250米，合成方式采用月最大值合成，每年12期，共299期。本产品采用基于归一化植被指数（NDVI）像元二分模型，根据土地利用类型确定纯植被像元值和纯裸土像元值，实现植被覆盖度计算。本产品去除湖泊、河流、冰川/永久积雪等区域。其中，NDVI数据来源于国家青藏高原科学数据中心中国区域250米归一化植被指数数据集（2000-2024）产品。通过时空变化趋势分析检验法分析，该数据集符合时间变化趋势和空间变化趋势。该数据集能够为全国区域生态质量评价、重要生态空间调查评估等工作提供数据参考。

国家青藏高原科学数据中心收录