UNI4ALL 数据集
收藏arXiv2025-01-11 更新2025-01-14 收录
下载链接:
http://arxiv.org/abs/2501.06166v1
下载链接
链接失效反馈官方服务:
资源简介:
UNI4ALL 数据集由米兰比可卡大学创建,旨在分析具有移民背景的大学生的特征。数据集包含两部分:一是2010年至2021年的行政档案,记录了所有在校学生的基本信息;二是2022年进行的在线调查数据,涵盖了694名学生的210个变量,涉及家庭背景、语言能力、教育路径等多个方面。数据集的创建过程包括对行政数据的预处理和在线调查的设计与实施。该数据集的应用领域主要集中在高等教育研究,旨在解决移民背景学生在大学中的表现和融入问题,特别是如何通过统计方法识别和分析这些学生的特征。
The UNI4ALL dataset was created by the University of Milan-Bicocca to analyze the characteristics of college students with immigrant backgrounds. The dataset consists of two parts: first, administrative records from 2010 to 2021, which document the basic information of all enrolled students; second, online survey data conducted in 2022, covering 210 variables across 694 students, involving aspects such as family background, language proficiency, educational trajectories, and multiple other dimensions. The creation process of this dataset includes preprocessing of administrative data and the design and implementation of the online survey. The main application fields of this dataset focus on higher education research, aiming to address issues regarding the performance and integration of students with immigrant backgrounds in universities, particularly how to identify and analyze the characteristics of these students through statistical methods.
提供机构:
意大利国家研究委员会(CNR),米兰比可卡大学
创建时间:
2025-01-11
搜集汇总
数据集介绍

构建方式
UNI4ALL数据集的构建基于意大利米兰比可卡大学(Unimib)的行政档案和一项专门设计的在线调查。行政档案涵盖了2010年至2021年期间所有在校学生的全面数据,包括学生的基本信息、教育背景和大学学业进展。为了补充行政数据的不足,研究团队在2022年3月进行了一项在线调查,旨在收集有关学生移民背景的详细信息。调查问卷涵盖了七个主要领域,包括家庭背景、语言能力、学校与大学路径、社会网络等。通过将调查数据与行政档案进行精确匹配,数据集得以扩展,涵盖了更多关于学生移民背景的指标。
特点
UNI4ALL数据集的一个显著特点是其对学生移民背景的细致分类。数据集不仅区分了国际学生和第二代移民学生,还进一步细分了具有不同移民经历的学生群体,如意大利公民但有移民经历的学生。此外,数据集还包含了丰富的变量,涵盖了学生的家庭背景、语言能力、学术表现以及社会网络等多个维度。这些特点使得该数据集能够支持对移民背景学生群体的深入分析,尤其是在教育成就、社会融入和大学服务使用等方面的研究。
使用方法
UNI4ALL数据集的使用方法主要包括两个步骤:首先,研究人员可以通过行政档案中的基本信息识别出具有移民背景的学生群体,并结合调查数据中的详细指标进行进一步分析。其次,数据集支持多种统计和机器学习方法的应用,如逻辑回归和随机森林模型,用于预测学生的移民背景类型。此外,数据集还可以用于比较不同移民背景学生群体的学术表现、社会网络结构以及大学服务的使用情况。通过整合行政数据和调查数据,研究人员能够更全面地理解移民背景学生在大学中的经历和挑战。
背景与挑战
背景概述
UNI4ALL数据集由意大利米兰比可卡大学的研究团队于2022年创建,旨在深入分析具有移民背景的大学生群体。随着意大利移民人口的增加,尤其是第二代移民的成长,了解这一群体在教育系统中的表现和挑战变得尤为重要。该数据集结合了大学行政记录和专门设计的调查数据,涵盖了学生的移民背景、家庭信息、语言能力、教育路径等多个维度。通过这一数据集,研究人员能够更全面地识别和分析具有移民背景的学生群体,尤其是那些在行政记录中难以区分的子群体,如第二代移民。UNI4ALL数据集为研究移民背景对高等教育的影响提供了重要的数据基础,填补了相关领域的空白。
当前挑战
UNI4ALL数据集在构建和分析过程中面临多重挑战。首先,行政记录中缺乏对移民背景的详细记录,尤其是关于学生父母的国籍信息,导致部分目标群体无法被准确识别。其次,由于缺乏完整的抽样框架,调查数据的代表性受到限制,调查样本的自选择机制可能导致选择偏差,影响统计分析的准确性。此外,数据整合过程中存在数据质量不一致的问题,如记录错误、编码不规范等,增加了数据清洗和预处理的复杂性。这些挑战不仅影响了数据的完整性,也对后续的统计建模和预测提出了更高的要求。为了应对这些挑战,研究团队采用了逻辑回归和随机森林等机器学习方法,以预测和填补缺失的移民背景信息,但仍需进一步优化数据收集和处理流程。
常用场景
经典使用场景
UNI4ALL数据集主要用于分析意大利大学中具有移民背景的学生群体。通过结合行政记录和针对性的调查数据,该数据集能够全面识别具有移民历史的学生群体,并区分其中的子群体,如第二代移民。经典的使用场景包括利用逻辑回归和随机森林模型预测学生的移民状态,从而为研究移民背景学生的特征提供数据支持。
实际应用
UNI4ALL数据集的实际应用场景广泛,特别是在高等教育政策制定和学生支持服务的设计中。通过分析移民背景学生的学术表现和社会网络,大学可以制定更具针对性的支持政策,如提供语言课程、辅导服务等,以帮助这些学生更好地融入学术环境。此外,该数据集还为研究移民背景学生的社会融入和歧视问题提供了数据支持,推动了教育公平的实现。
衍生相关工作
UNI4ALL数据集衍生了一系列相关研究,特别是在移民背景学生的学术表现和社会融入领域。基于该数据集的研究成果,学者们进一步探讨了第二代移民的学术成就、辍学率及其与本地学生的差异。此外,该数据集还为开发更精确的统计模型和机器学习算法提供了基础,推动了移民研究领域的方法论创新。这些研究不仅丰富了学术界对移民背景学生的理解,也为政策制定者提供了科学的决策依据。
以上内容由遇见数据集搜集并总结生成



