ck_data

github2021-12-05 更新2024-05-31 收录

下载链接：

https://github.com/zkoza/ck_data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含从CK服务器上通过OCR软件转换的原始数据，用于分析波兰学术晋升系统的权力分布。数据包括个人姓名、学术领域、申请类型、CK决策URL等信息，以及相关的波兰-英语科学领域和学科名称字典。

This dataset comprises raw data converted via OCR software from the CK server, intended for analyzing the power distribution within the Polish academic promotion system. It includes individual names, academic fields, application types, CK decision URLs, and a related Polish-English dictionary of scientific fields and discipline names.

创建时间：

2021-11-30

原始信息汇总

数据集概述

数据集名称

raw_data.csv
fields_PL-EN_dictionary.csv
disciplines_PL-EN_dictionary.csv
ck_members.csv

数据集内容

raw_data.csv:
- 包含字段：名字、姓氏、学术领域（波兰语）、学术学科（波兰语）、申请编号、申请类型、CK部门、URL、CK决策URL、第一至第五评审员（仅限教授申请）、主席、秘书、第一至第二成员、年份。
- 数据来源：通过OCR软件从CK文档中读取的原始数据。
fields_PL-EN_dictionary.csv:
- 波兰语-英语的学术领域名称字典。
disciplines_PL-EN_dictionary.csv:
- 波兰语-英语的学术学科名称字典。
ck_members.csv:
- 包含CK成员在2011-2020年间的名单，包括任期、科学专业和隶属关系。

数据格式

所有数据以CSV格式存储。
字符编码：UTF-8。
列分隔符：逗号。

注意事项

数据可能包含拼写错误，如姓名、学科分配、年份等。
数据不代表真实人物，仅为字符序列。
CK成员数据为不同时期的快照，未考虑成员变动。

搜集汇总

数据集介绍

构建方式

ck_data数据集的构建基于波兰国家学术晋升系统的公开文档，这些文档通过OCR软件从PDF格式自动转换为纯文本文件。数据主要来源于CK（Centralna Komisja do Spraw Stopni i Tytułów）服务器的公开决策文件，涵盖了2011年至2020年间的学术晋升申请信息。数据集中的字段包括申请人姓名、学术领域、学科、申请编号、申请类型、CK部门、相关文档URL以及评审委员会成员信息等。

特点

ck_data数据集的特点在于其详细记录了波兰学术晋升系统中的关键信息，包括申请人的学术背景、评审委员会的构成及其决策过程。数据集还提供了波兰语与英语对照的学术领域和学科词典，便于跨语言研究。然而，由于数据来源于OCR转换，可能存在拼写错误或信息不准确的情况，因此在使用时需谨慎验证。

使用方法

ck_data数据集以CSV格式存储，用户可通过常见的电子表格软件如LibreOffice或MS Excel进行读取和分析。数据集的使用方法包括但不限于：分析学术晋升系统中的权力分布、研究评审委员会的构成及其对决策的影响、以及探索学术领域与学科之间的关系。由于数据可能包含误差，建议在使用时结合原始文档进行验证，以确保研究的准确性。

背景与挑战

背景概述

ck_data数据集由波兰的几位学者Zbigniew Koza、Robert Lew、Emanuel Kulczycki和Piotr Stec于2022年创建，旨在分析波兰国家学术晋升体系中的权力分布问题。该数据集的核心研究问题聚焦于学术晋升过程中“老男孩网络”对决策的影响，揭示了学术领域中的权力集中现象。数据集来源于波兰中央学术委员会（CK）的公开文件，涵盖了2011年至2020年间教授资格和博士学位申请的评审委员会成员信息。通过OCR技术从PDF文档中提取数据，ck_data为研究学术晋升体系的透明性和公平性提供了重要依据，对社会科学领域的权力结构研究具有深远影响。

当前挑战

ck_data数据集在构建和应用过程中面临多重挑战。首先，数据来源于OCR技术处理的PDF文档，不可避免地存在拼写错误和格式不一致问题，尤其是人名和学科分类的准确性难以保证。其次，由于部分文档在数据提取后被删除，导致部分字段缺失，进一步增加了数据完整性的难度。此外，数据集中的人名信息无法区分同名个体或反映姓名变更情况，限制了其在个体层面的应用。最后，CK成员信息的动态变化未被完全捕捉，数据集仅反映了特定时间点的成员状态，可能无法全面反映权力结构的演变。这些挑战要求研究者在应用数据时需谨慎验证原始来源，以确保研究结果的可靠性。

常用场景

经典使用场景

ck_data数据集主要用于分析波兰国家学术晋升系统中的权力分布情况。通过该数据集，研究者可以深入探讨学术晋升过程中评审委员会成员的构成及其对决策的影响，揭示学术系统中的潜在权力结构和不平等现象。

解决学术问题

该数据集为解决学术晋升系统中的权力集中问题提供了数据支持。通过对评审委员会成员、申请类型及决策年份的分析，研究者能够识别出学术晋升过程中可能存在的偏见和不公平现象，从而推动更加透明和公正的学术评价体系的建立。

衍生相关工作

基于ck_data数据集，已有研究探讨了学术晋升系统中的性别、地域和学科差异等问题。这些研究不仅深化了对学术权力结构的理解，还为相关政策制定提供了实证依据，推动了学术界对公平性和透明度的进一步关注。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集