ORCID Public Data File 2023|学术流动数据集|国际交流数据集

github2024-05-07 更新2024-05-31 收录

学术流动

国际交流

下载链接：

https://github.com/clareClaymore2001/ORCID.DataExplained

下载链接

链接失效反馈

资源简介：

该数据集包含了1800万学者的1100万次流动数据，用于分析学术界的国际流动情况。数据集详细记录了学者的流入和流出情况，以及根据HDI调整的流动数，用于更准确地反映不同国家间的学术交流情况。

This dataset encompasses 11 million mobility records of 18 million scholars, designed to analyze international mobility within the academic community. It meticulously documents the inflow and outflow of scholars, along with mobility figures adjusted by the Human Development Index (HDI), to more accurately reflect academic exchanges between different countries.

创建时间：

2024-04-13

原始信息汇总

数据集概述

数据来源

ORCID Public Data File 2023：包含1800万学者的数据，记录了1100万次学术流动。
UNDP HDI 2022：用于调整学术流动数据的人类发展指数。

数据内容

学术流动分析：基于ORCID数据，分析各国学术人才的流入与流出情况。
- 流入与流出定义：
  - 流入：学者选择某国作为目的地。
  - 流出：学者从某国出发。
  - 自我流动：流入国与流出国相同，即内部流动。
流动计数：
- 未调整计数：学者从一地移动到另一地。
- HDI调整计数：根据流出与流入国的HDI差异调整流动计数。

数据处理

流动比率计算：
- 无自我流动比率：总流入数 / 总流出数。
- 含自我流动比率：(总流入数 + 总自我流动数) / (总流出数 + 总自我流动数)。
HDI加权算法：流动数 = 流出国HDI / 流入国HDI，用于调整因生活条件差异引起的流动吸引力。

数据下载

GitHub页面：ORCID.DataExplained，提供数据下载。

工具与技术

编程语言：Python。
数据处理工具：IMAGE、Watermark工具。

AI搜集汇总

数据集介绍

构建方式

ORCID Public Data File 2023 数据集的构建基于ORCID平台上的学者注册信息，涵盖了1847万名学者的学术流动数据。该数据集通过分析学者的流入和流出情况，结合国家层面的HDI（人类发展指数）进行加权计算，以量化各国学术人才的净流入或净流出状态。数据集的构建过程中，采用了无自流和有自流的两种比率计算方式，分别考虑了学者在同一国家内的流动情况，确保数据的全面性和准确性。

使用方法

使用ORCID Public Data File 2023数据集时，用户可以通过下载GitHub页面提供的程序和数据文件，利用Python进行数据分析和可视化。数据集支持多种分析方式，包括但不限于学术流动的净流入/流出分析、国家层面的学术人才平衡分析等。用户可以根据需要选择无自流或有自流的比率计算方式，并结合HDI加权数据进行深入研究。此外，数据集还提供了详细的文档和工具，帮助用户快速上手并进行有效的数据分析。

背景与挑战

背景概述

ORCID Public Data File 2023是由ORCID组织发布的公开数据集，涵盖了1847万名学者的学术活动数据，其中包括1145万次的学术流动记录。该数据集的创建旨在分析全球学术界的流动趋势，揭示学者在不同国家和机构间的迁移模式。ORCID作为一个全球性的学术身份识别系统，其数据集为研究者提供了深入了解学术界动态的宝贵资源。通过分析这些数据，研究者可以洞察学术流动的驱动因素，评估不同国家和地区的学术吸引力，并对全球学术资源的分布进行量化分析。

当前挑战

该数据集面临的挑战主要集中在数据处理和分析的复杂性上。首先，数据集规模庞大，包含1847万名学者的详细信息和1145万次的学术流动记录，如何高效地处理和存储这些数据是一个技术难题。其次，学术流动的分析需要考虑多种因素，如国家的发展水平（通过HDI指数衡量）、学术机构的声誉等，这增加了数据分析的复杂性。此外，数据集的更新频率和数据质量的保证也是关键挑战，确保数据的准确性和时效性对于研究结果的可靠性至关重要。

常用场景

经典使用场景

ORCID Public Data File 2023 数据集的经典使用场景主要集中在学术迁移和国际学术流动的分析。通过该数据集，研究者可以深入探讨学者在不同国家之间的流动模式，分析哪些国家是学术人才的净流入地或净流出地。此外，该数据集还可用于研究学术迁移对国家和地区科研能力的影响，以及学术人才流动与国家发展水平之间的关系。

解决学术问题

该数据集解决了学术界长期以来对全球学术人才流动模式的量化研究需求。通过分析1847万名学者的1145万次流动数据，研究者能够揭示学术迁移的规律，评估不同国家对学术人才的吸引力，并探讨学术迁移对科研产出和创新能力的影响。这一数据集为学术迁移研究提供了坚实的数据基础，推动了相关领域的深入探索。

实际应用

在实际应用中，ORCID Public Data File 2023 数据集可为政策制定者提供重要参考，帮助他们制定吸引和留住学术人才的政策。例如，通过分析学术人才的流动趋势，政府可以识别出哪些国家或地区在吸引学者方面表现突出，从而借鉴其成功经验。此外，高校和研究机构也可利用该数据集评估自身的国际竞争力，优化招聘策略。

数据集最近研究

最新研究方向

近年来，基于ORCID公共数据文件的研究逐渐聚焦于全球学术人才流动的动态分析。该数据集通过整合1847万名学者的1145万次流动数据，揭示了各国学术人才的净流入与流出情况，尤其在考虑了人类发展指数（HDI）加权后的流动模式，为理解学术圈的国际迁移提供了新的视角。研究者们利用这一数据集，不仅分析了学术人才的全球分布趋势，还探讨了不同国家在吸引和保留高素质学者方面的策略差异。此外，该数据集的应用还延伸至院校排名和硕士项目的国际吸引力评估，为学术政策制定和国际教育战略提供了重要参考。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国空气质量数据集（2014-2020年）

数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI，包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台，每日更新。数据集的原始文件为CSV的文本记录，通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。

国家地球系统科学数据中心收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库，由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音，录音在安静的室内环境中使用高保真麦克风进行，并下采样至16kHz。通过专业的语音标注和严格的质量检查，手动转录的准确率超过95%。该数据集免费供学术使用，旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MIMII数据集

MIMII数据集是由日立有限公司研究与开发集团创建的，专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件，涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中，使用了TAMAGO-03麦克风阵列进行声音采集，并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统，特别是在无监督学习场景下检测机器异常声音。

arXiv 收录

TIMIT

TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音，每个人阅读多达 10 个语音丰富的句子。

OpenDataLab 收录