Brown University Student Academic Dataset Collection

github2025-11-19 更新2025-11-20 收录

下载链接：

https://github.com/BengaluruScript/Student-Perform-Factors

下载链接

链接失效反馈

官方服务：

资源简介：

该存储库包含6个相互关联的数据集，专注于布朗大学学生的学业表现、学习行为和课程背景。数据支持个性化教育策略研究、学习参与度分析和学业成果预测，同时严格遵守隐私法规和道德准则。所有数据集都采用结构化设计，兼容常见的数据分析工具，并包含清晰的列命名规范以便集成。

This repository contains six interrelated datasets focused on the academic performance, learning behaviors, and course backgrounds of Brown University students. These datasets support research on personalized education strategies, learning engagement analysis, and academic outcome prediction, while strictly complying with privacy regulations and ethical guidelines. All datasets feature structured designs, are compatible with common data analysis tools, and include clear column naming conventions to facilitate seamless integration.

创建时间：

2025-11-19

原始信息汇总

Brown University Student Academic Dataset Collection 数据集概述

数据集简介

该数据集集合包含6个相互关联的数据集，专注于布朗大学学生学业表现、学习行为和课程背景。数据支持个性化教育策略研究、学习参与度分析和学业成果预测，同时严格遵守隐私法规和伦理准则。

数据源与合规性

所有数据集均按照FERPA法规、布朗大学数据治理政策和伦理研究标准收集处理。

各数据集来源

raw_static.csv：大学官方学术管理系统，经学生明确自愿同意收集，已匿名化处理
enrollment.csv：大学官方学术管理系统，符合FERPA规定，学生可随时撤销同意
weekly_activity.csv：大学学习分析平台，日志数据聚合处理避免个体识别
synthetic_features.csv：源自前三项数据集的聚合匿名数据，通过统计建模生成
courses.csv：大学公共注册系统，仅包含公开课程信息
behavior_text.csv：学生提交的教育互动文本，经IRB审查批准，PII已剥离

数据集详情

raw_static.csv - 学生成绩记录

用途：存储学生考试成绩和课程作业的静态数据
关键字段：student_id、course_code、exam_1_score、exam_2_score、final_score、grade
数据类型：结构化数值/分类数据
更新频率：静态数据（单学期记录）

enrollment.csv - 学生注册详情

用途：跟踪学生课程注册状态和学术项目
关键字段：student_id、course_code、enrollment_date、program、enrollment_status
数据类型：结构化数值/分类数据
更新频率：注册期间每周更新

weekly_activity.csv - 每周学习活动日志

用途：记录学生每周在学习平台的参与情况
关键字段：student_id、course_code、week、login_count、assignment_submission_count、forum_post_count
数据类型：结构化数值数据
更新频率：每周更新

synthetic_features.csv - 衍生学习模式特征

用途：提供预计算合成特征支持预测建模
关键字段：student_id、course_code、engagement_score、performance_risk_flag、study_consistency_index
数据类型：结构化数值/分类数据
生成方法：基于raw_static.csv和weekly_activity.csv的统计建模

courses.csv - 课程目录信息

用途：为学生数据提供课程背景参考
关键字段：course_code、course_name、department、credit_hours、instructor_id
数据类型：结构化分类/数值数据
来源：布朗大学注册系统公开信息

behavior_text.csv - 匿名教育文本数据

用途：包含反映学生学习参与度的文本数据
关键字段：text_id、student_id、course_code、text_type、text_content、submission_date
数据类型：非结构化文本+结构化元数据
预处理：文本小写化，PII通过正则过滤移除

数据使用指南

允许用途

个性化教育策略研究
学习参与模式分析
教育预测模型开发

禁止用途

尝试重新识别学生身份
商业用途
未经IRB批准修改或重新发布behavior_text.csv

引用要求

使用数据集发表研究成果时需引用： "Brown University Student Academic Dataset Collection. Brown University Learning Analytics Lab, 2025. Compliant with FERPA and IRB Guidelines."

技术说明

文件格式：UTF-8编码CSV文件
缺失值：数值列标记为NA，文本列为空字符串
数据连接：使用student_id和course_code作为主键连接数据集
工具兼容性：支持Python 3.8+（Pandas 1.5+）和R 4.2+（readr 2.1+）

联系与更新

最后更新：2023-02-15
下次计划更新：2025-05-11
联系方式：learning.analytics@brown.edu

搜集汇总

数据集介绍

构建方式

在高等教育研究领域，布朗大学学生学术数据集通过多源数据整合构建而成。原始数据源自大学学术管理系统、学习分析平台及公共注册系统，严格遵循FERPA法规与伦理准则。学生静态表现数据与动态行为日志分别从课程考核系统和在线学习平台采集，文本数据则经过匿名化处理移除个人身份信息。合成特征通过统计建模从聚合数据中衍生，形成标准化的结构化数值与分类变量，所有数据集均采用统一标识符实现跨表关联。

使用方法

研究者可借助标准数据分析工具进行跨数据集关联探索，通过学生标识与课程代码实现行为日志与课程元数据的精准匹配。建议优先使用合成特征开展教育预测模型构建，同时结合原始静态数据进行验证分析。文本数据适用于自然语言处理研究，但需遵循IRB规范禁止再识别操作。数据集支持个性化教育策略评估、学习参与模式分析等研究方向，所有应用需引用指定文献并遵守非商业用途限制。

背景与挑战

背景概述

布朗大学学生学术数据集集合由该校学习分析实验室于2025年创建，聚焦高等教育领域的个性化学习策略研究。该数据集通过整合学生学业表现、课程参与度和文本行为等多维度数据，旨在构建覆盖静态成绩、动态行为与课程语境的立体化分析框架。其核心研究问题在于探索学习行为模式与学术成果的关联机制，为精准教育干预提供实证基础，推动学习科学领域从宏观统计向微观个体化分析的范式转型。

当前挑战

该数据集需应对教育数据挖掘中学习行为动态建模的复杂性挑战，包括如何从稀疏的周度活动记录中提取稳定行为特征，以及跨课程文本数据与数值指标的语义对齐问题。在构建过程中，研究团队需平衡数据粒度与隐私保护，通过多层匿名化处理消除个人标识信息，同时采用统计建模生成合成特征以维持分析效用，这种技术路径对数据衍生过程的透明性与可复现性提出了更高要求。

常用场景

经典使用场景

在高等教育研究领域，该数据集为学习分析提供了多维度的实证基础。研究者通过整合学生静态成绩、动态行为日志与课程背景信息，构建了完整的学术表现追踪链条。其经典应用体现在利用时间序列建模分析周度学习活动与期末成绩的关联性，例如通过论坛参与频率预测考试表现，为教育干预提供数据驱动的决策依据。

解决学术问题

该数据集有效解决了教育数据科学中的关键难题：如何平衡数据粒度与隐私保护。通过匿名化处理与合成特征生成，既保留了学生行为模式的统计显著性，又规避了个人身份泄露风险。其意义在于建立了符合伦理规范的大规模学习行为研究范式，为跨院校教育数据分析提供了标准化模板。

实际应用

在实际教学场景中，该数据集支撑了智能教育系统的开发。教务部门可基于性能风险标志提前识别学业困难学生，自动化触发个性化辅导方案。课程设计者通过分析跨专业选课模式与成绩关联，优化课程体系结构，这种应用显著提升了教育资源分配的精准度与教学效率。

数据集最近研究