arXiv Dataset|学术研究数据集|STEM数据集
收藏
- arXiv首次发布,作为物理学领域的预印本服务器,旨在促进科学研究的快速传播和交流。
- arXiv扩展其覆盖领域,开始收录计算机科学、数学、非线性科学、定量生物学和统计学等领域的论文。
- arXiv推出新的用户界面和搜索功能,提升了用户体验和数据检索效率。
- arXiv与数据科学社区合作,开始提供数据集的元数据,为研究人员提供更丰富的数据资源。
- arXiv Dataset正式发布,包含超过170万篇论文的元数据,成为研究机器学习和自然语言处理的重要数据集。
中国1km分辨率逐月降水量数据集(1901-2024)
该数据集为中国逐月降水量数据,空间分辨率为0.0083333°(约1km),时间为1901.1-2024.12。数据格式为NETCDF,即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集,通过Delta空间降尺度方案在中国降尺度生成的。并且,使用496个独立气象观测点数据进行验证,验证结果可信。本数据集包含的地理空间范围是全国主要陆地(包含港澳台地区),不含南海岛礁等区域。为了便于存储,数据均为int16型存于nc文件中,降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理,Matlab发布了读入与存储nc文件的函数,读取函数为ncread,切换到nc文件存储文件夹,语句表达为:ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent]),其中XXX.nc为文件名,为字符串需要’’;var是从XXX.nc中读取的变量名,为字符串需要’’;i、j、t分别为读取数据的起始行、列、时间,leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样,研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令,可查看。数据坐标系统建议使用WGS84。
国家青藏高原科学数据中心 收录
Figshare
Figshare是一个在线数据共享平台,允许研究人员上传和共享各种类型的研究成果,包括数据集、论文、图像、视频等。它旨在促进科学研究的开放性和可重复性。
figshare.com 收录
GTEx (Genotype-Tissue Expression)
GTEx数据集包含了来自多个组织和器官的基因表达数据,旨在研究基因型与组织特异性表达之间的关系。数据集包括基因表达谱、基因型信息、组织样本的详细描述等。
gtexportal.org 收录
GFS
数据来源采自美国国家环境预报中心的GFS(全球预报系统),该系统每天发布4次全球范围的气象数据,分辨率最高可达到0.25° x 0.25°。GFS数据提供FTP下载方式:https://nomads.ncep.noaa.gov/pub/data/nccf/com/gfs/。每次发布的数据保存在命名为gfs.YYYYMMDDHH的文件夹中。本次需要的数据精度为0.25°(0p25),所以数据的文件名为:gfs.t{ HH }z.pgrb2.0p25.f{ XXX }
地球大数据科学工程 收录
DeepReview-13K
DeepReview-13K是由浙江大学工程学院和西湖大学合作创建的一个结构化评审数据集。该数据集包含了原始研究论文、结构化的中间评审步骤和最终评估,旨在解决自动化评审系统中存在的缺乏细粒度专家评估过程的问题。DeepReview-13K数据集包含了13378条有效样本,是从两个ICLR会议周期(2024-2025)的18976篇论文投稿中收集并经过严格质量控制的。
arXiv 收录