“山水林田湖草”系统多源数据-专家知识数据集
收藏国家青藏高原科学数据中心2023-03-01 更新2024-03-06 收录
下载链接:
https://data.tpdc.ac.cn/zh-hans/data/604bd0ba-82e9-40ae-b080-2993d0261d58
下载链接
链接失效反馈官方服务:
资源简介:
“山水林田湖草”系统多源数据-专家知识数据集包括祁连山地区多源科技文献、映射知识库等大数据库。
1、祁连山SDGs与科技文献大数据和社交网络大数据映射知识库及流域地理关系知识库:祁连山SDGs与科技文献大数据和社交网络大数据映射知识库包括流域集成模型和其他模型输出的变量按社交网络、科技文献大数据中英文等主题分类。流域地理关系数据库包括青海湖流域、柴达木盆地、疏勒河流域、大通-湟水流域、黑河流域、石羊河流域市州、区县旗、乡镇、村/社区等地理数据库名称。
2、祁连山科技文献大数据:包括1990-2022年间与祁连山流域相关科技文献的主要信息及其对应的可持续发展目标(SDGs),包含中文数据与英文数据两个数据表,中文数据表包含15个字段,英文数据表包含19个字段,具体说明见文件“数据说明.txt” 。2)数据来源及加工方法:基于祁连山流域关键词分别在中国知网cnki与WoS数据库上检索中英文文献,通过自然语言处理等过程清洗数据,使用机器学习方法构建数据与SDGs之间的映射关系。3)数据应用成果及前景:从祁连山流域已有研究中挖掘信息,以支持科学研究对某一议题的情感判断。
3、祁连山社交网络大数据:2017-2020年祁连山地区的微博签到数据,使用BERT预训练模型进行深度学习进行文本分类,分类标准为人工判断的SDG指标。数据字段含义为: date为微博签到,mid为微博id,userid为用户id,sdgs为微博经过深度学习判别后的SDG对应指标,sa为微博文本对应的情感分析结果。
多源数据库的详细说明可参考数据集中说明文档。
提供机构:
盖迎春,钟方雷,尚庆生,张凌,王亮绪,姜旭妍,杨佳昊
创建时间:
2023-03-01



