ArXiv|学术研究数据集|数据集数据集
收藏
- ArXiv数据集首次由Paul Ginsparg在洛斯阿拉莫斯国家实验室创建,旨在为物理学领域的研究论文提供一个开放的预印本存储和交流平台。
- ArXiv数据集的管理权转移至康奈尔大学,标志着其从国家实验室的内部项目转变为一个更为广泛和国际化的学术资源。
- ArXiv数据集开始接受计算机科学领域的论文提交,进一步扩展了其涵盖的学科范围。
- ArXiv数据集引入了新的分类系统,以更好地组织和检索日益增长的学术文献,提升了用户的使用体验。
- ArXiv数据集的月度提交量首次突破5000篇,显示出其在全球学术界的重要性和影响力不断增强。
- ArXiv数据集推出了新的用户界面和搜索功能,进一步优化了用户体验,并支持更多的学术交流和合作。
- 1The arXiv Dataset: A Large-Scale Dataset for Research in the Field of Machine LearningarXiv · 2019年
- 2A Survey of the arXiv Dataset: Applications and Future DirectionsUniversity of California, Berkeley · 2021年
- 3Exploring the arXiv Dataset for Natural Language Processing ResearchStanford University · 2020年
- 4The arXiv Dataset: A Comprehensive Analysis of Machine Learning PapersMassachusetts Institute of Technology · 2022年
- 5Using the arXiv Dataset to Improve Citation Prediction ModelsCarnegie Mellon University · 2021年
中国区域交通网络数据集
该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。
data.stats.gov.cn 收录
OQMD
12W+DFT计算数据,包括热力学和结构性质label
OpenDataLab 收录
Tunnel lining cracks
There are a total of 2,213 pictures of tunnel lining cracks, and there are three main types of cracks, Oblique, circumferential and longitudinal cracks.
DataCite Commons 收录
MVII_metal_datasets
我们发布了两个带有实例级像素注释的金属表面缺陷数据集:Casting Billet和Steel Pipe。Casting Billet数据集包含1,060张图像(780张有缺陷),分辨率从96×106到3,228×492不等,缺陷类型包括划痕、焊渣、切割开口、水渣痕迹、渣皮和纵向裂纹。Steel Pipe数据集包含1,227张图像(554张有缺陷),固定分辨率为728×544,缺陷类型包括弯曲、外部折叠、皱纹和划痕。
github 收录
新疆-中亚矿产资源分布及其潜力评估(2018.1-2021.12)
1) 数据内容:本数据库包含空间范围:①我国青藏高原、新疆;②中亚(哈萨克斯坦、吉尔吉斯斯坦、塔吉克斯坦、乌兹别克斯坦);③西亚(巴基斯坦、阿富汗、伊朗);④东南亚(泰国、越南、老挝、缅甸、柬埔寨)。数据内容主要有:①1:500万地质数据集(地质体和构造);②1:100万各国地质矿产数据集(地质体、构造、矿产);②金属矿产数据集(矿床、矿点、矿化点);③新疆-中亚成矿地质背景数据集(岩石建造组合、构造分区、成矿区带、远景区、靶区、矿产);主要图件包括:泛第三极地质矿产图(1:500万)、中亚四国地质矿产图(1:150万)、巴基斯坦地质矿产图(1:100万)、阿富汗地质矿产图(1:100万)、伊朗地质矿产图(1:100万)、中国新疆-中亚廊带地质矿产图(1:250万)、中国新疆-中亚廊带成矿规律图(1:250万)、我国青藏高原地质矿产图(1:150万)。空间数据库采用ArcGIS平台,可为区域成矿规律研究、资源潜力评估、战略远景区圈定以及各类专题图件编制提供基础数据支撑。数据库格式为文件数据库(.GDB),图件包括工程文件(MXD)和栅格图(JPG),也可根据需要生成各类常见图形格式(PDF、TIF、EPS等)。泛第三极全区(1:500万)采用兰伯特等形圆锥投影,中央经线为东经84度,双纬分别为20度和55度。中国新疆-中亚廊带地质矿产数据采用兰伯特等形圆锥投影,中央经线为东经75度,双纬分别为30度和50度。中亚和西亚主要国别1:100万地质矿产数据采用采用兰伯特等形圆锥投影,中央经线和双纬根据各国所在位置具体确定。 2) 数据来源及加工方法;基础地质数据主要来源于任继舜院士编亚洲地质图(2015)(1:500万)、中欧亚构造成矿图和地质图(2008)(1:250万)、域内各国地质调查部门地质图(1:100万);②矿产数据主要来源包括全国矿产资源潜力评价项目成果(2012)、英国伦敦自然历史博物馆中亚矿产数据库及专题图(2014)、美国地质调查局阿富汗数据集(2008)、域内各国地质调查部门相关资料数据、域内矿产相关论文论著。此外,为满足各类数据修改及完善大量采用遥感数据,具体包括:ETM+、OLI、ASTER、Worldview等影像数据以及90m、30米、12.5mDEM数据等。 3) 数据质量描述;为满足泛第三极区域成矿规律研究、地质矿产图和成矿预测图编制需要,在数据空间准确性、逻辑一致性和数据完整性方面进行编辑、处理以及补充完善。具体包括:①矢量化,基于前述资料进行了大量矢量化工作,用于补充数字资料缺失区域(伊朗、巴基斯坦),同时根据资料更新程度合并、分割各类面要素和线要素,矢量化工作按照我国相关规范要求比例尺精度要求下完成;②拓扑处理,消除重叠面、空区等拓扑错误;③完善要素属性结构和补充要素属性内容,围绕区域成矿规律研究、地质矿产图和成矿预测图编制目标,依据我国相关规范,结合具体资料和数据内容,建立了相应数据模型,完善了地质体、构造、矿产要素类属性结构并完成了相应属性的填写工作;④基于以上数据处理内容,结合泛第三极研究成果和最新认识,对区内相关地质内容进行了进一步修改和完善。 4) 数据应用成果及前景:泛第三极地质矿产数据库主要服务于泛第三极全区、重要成矿带以及国别区域成矿规律研究、地质矿产图和成矿预测图编制,比例尺为1:500万(泛第三极全区)、1:250万(中国新疆-中亚廊带)、1:100万(重要成矿带、中西亚各国别)。
国家青藏高原科学数据中心 收录