ORCID Public Data File 2023|学术流动数据集|国际交流数据集
收藏数据集概述
数据来源
- ORCID Public Data File 2023:包含1800万学者的数据,记录了1100万次学术流动。
- UNDP HDI 2022:用于调整学术流动数据的人类发展指数。
数据内容
- 学术流动分析:基于ORCID数据,分析各国学术人才的流入与流出情况。
- 流入与流出定义:
- 流入:学者选择某国作为目的地。
- 流出:学者从某国出发。
- 自我流动:流入国与流出国相同,即内部流动。
- 流入与流出定义:
- 流动计数:
- 未调整计数:学者从一地移动到另一地。
- HDI调整计数:根据流出与流入国的HDI差异调整流动计数。
数据处理
- 流动比率计算:
- 无自我流动比率:总流入数 / 总流出数。
- 含自我流动比率:(总流入数 + 总自我流动数) / (总流出数 + 总自我流动数)。
- HDI加权算法:流动数 = 流出国HDI / 流入国HDI,用于调整因生活条件差异引起的流动吸引力。
数据下载
- GitHub页面:ORCID.DataExplained,提供数据下载。
工具与技术
- 编程语言:Python。
- 数据处理工具:IMAGE、Watermark工具。

中国空气质量数据集(2014-2020年)
数据集中的空气质量数据类型包括PM2.5, PM10, SO2, NO2, O3, CO, AQI,包含了2014-2020年全国360个城市的逐日空气质量监测数据。监测数据来自中国环境监测总站的全国城市空气质量实时发布平台,每日更新。数据集的原始文件为CSV的文本记录,通过空间化处理生产出Shape格式的空间数据。数据集包括CSV格式和Shape格式两数数据格式。
国家地球系统科学数据中心 收录
AISHELL/AISHELL-1
Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。
hugging_face 收录
CE-CSL
CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。
arXiv 收录
MIMII数据集
MIMII数据集是由日立有限公司研究与开发集团创建的,专注于工业机器异常声音检测的数据集。该数据集包含26,092个正常操作条件下的声音文件,涵盖阀门、泵、风扇和滑轨四种机器类型。数据集的创建过程中,使用了TAMAGO-03麦克风阵列进行声音采集,并在多个真实工厂环境中混合背景噪声以模拟实际环境。MIMII数据集主要用于机器学习和信号处理社区开发自动化设施维护系统,特别是在无监督学习场景下检测机器异常声音。
arXiv 收录
TIMIT
TIMIT 阅读语音语料库的开发旨在为声学语音研究和自动语音识别系统的评估提供语音数据。 TIMIT 包含 630 个人/说话者的 8 种不同美式英语方言的高质量录音,每个人阅读多达 10 个语音丰富的句子。
OpenDataLab 收录