AIRC (Artificial Intelligence in Real Classroom)
收藏arXiv2025-04-28 更新2025-04-30 收录
下载链接:
https://github.com/mengxiayu/COSER
下载链接
链接失效反馈官方服务:
资源简介:
AIRC数据集是一个支持基于视频的教育问题生成(EQG)的数据集,由圣母大学计算机科学系的研究团队创建。该数据集包含两个大学课程的真实课堂讲座录音和屏幕视频录像,以及教育者创建的时间戳相关多项选择题。AIRC数据集旨在解决现有EQG数据集无法反映真实课堂环境的问题,它包含了现实课堂中讲座语音的不规范性和不结构性,以及与教科书相比,信息传递的不简洁性和不结构性。该数据集的创建过程包括收集真实的课堂讲座录音、屏幕视频录像和转录文本,然后由教育者创建时间戳相关的问题。AIRC数据集的应用领域是教育问题生成技术,旨在解决自动生成高质量教育问题的挑战。
The AIRC dataset is a dataset supporting video-based educational question generation (EQG), developed by a research team from the Department of Computer Science at the University of Notre Dame. This dataset includes real classroom lecture audio recordings, screen video recordings from two university courses, as well as timestamp-aligned multiple-choice questions created by educators. The AIRC dataset aims to address the shortcoming that existing EQG datasets fail to reflect real-world classroom environments, as it captures the non-standardized and unstructured characteristics of lecture speech in actual classrooms, as well as the lack of conciseness and structural coherence in information delivery compared to textbooks. The creation process of the AIRC dataset involves collecting real classroom lecture audio recordings, screen video recordings and transcribed texts, followed by the development of timestamp-aligned questions by educators. The AIRC dataset is targeted for applications in educational question generation technology, with the goal of solving the challenge of automatically generating high-quality educational questions.
提供机构:
圣母大学计算机科学系
创建时间:
2025-04-28
原始信息汇总
数据集概述:Question Generation for Real Classrooms
数据集内容
- AIRC数据集:包含教育工作者为真实课堂讲座创建的多项选择题。
- 处理流程:支持基于视频的教育问题生成(QG)的上下文选择和重写流程。
数据集更新
- [2025.04.27]:上传了arXiv论文。
- [2025.04.15]:上传了两门课程的测验生成数据:
LLM-Frontier和DL-Intro。
主要功能
- 主脚本:
run_chatgpt_pipeline.py,通过Bash脚本执行,支持多种上下文和重写策略的组合。 - 输出保存:按配置保存输出,便于分析和比较不同策略的效果。
上下文格式支持
| 格式 | 描述 |
|---|---|
CoTT, DirectT |
基于文本的上下文,Chain-of-Thought (CoT) 或 Direct |
CoTV, DirectV |
视觉增强的上下文,带有CoT或Direct |
CoTMM, DirectMM |
结合文本和视觉的多模态输入 |
Full |
未经修剪或重写的完整原始上下文 |
RuleT3, RuleV3 |
基于规则的上下文格式,V和T变体 |
重写选项
Yes:应用重写策略以增强输入上下文的清晰度和简洁性。No:使用原始提取的上下文。
目录结构
bash . ├── run_pipeline.sh # 运行所有配置组合的Bash脚本 ├── run_chatgpt_pipeline.py # 主流程脚本 ├── ../data/ # 数据目录(在仓库外) │ ├── LLM-Frontier/ │ └── MIT-DL/ ├── ../out/ # 输出目录(自动生成)
输出路径
../out/<out_folder>/<model_name>/<data_split>/<context>_<rewrite>/<run_id>/
配置参数
model_name=gpt-4o-mini# 或其他HuggingFace / OpenAI模型名称max_context_length=4000max_output_length=800temperature=0.1seed=42run_id=0415-1out_folder=ND-LLMdata_split=ND-LLMdevice=cpu# 或cuda(如果可用)api_key=your_api_key# OpenAI/Together APIs所需
依赖项
- Python 3.10+
transformersopenaitogethertqdm
安装依赖
bash conda create -n coser python=3.10 conda activate coser pip install -r requirements.txt
运行流程
bash cd code/ bash run_COSER_pipeline.sh
搜集汇总
数据集介绍

构建方式
AIRC数据集构建过程注重真实课堂环境的还原,通过系统化流程采集了两门大学课程(LLM-Frontier研究生课程和DL-Intro本科生课程)的27场讲座视频与8场一小时讲座。数据采集采用Zoom/YouTube平台实录,保留自动字幕生成的原始转录文本,并邀请三位教育工作者(1名教授+2名助教)基于视频暂停点人工标注时间戳及对应多选题。后处理阶段采用标点恢复模型处理原始转录,通过关键帧检测算法提取幻灯片图像,并利用GPT-4o-mini生成视觉描述文本,最终建立时间对齐的多模态教育问答资源。
特点
该数据集的核心价值在于其真实性维度:1) 内容维度完整保留课堂口语的填充词、不流畅表达及自动转录错误;2) 结构维度融合非结构化的演讲语音与配套幻灯片视觉信息;3) 任务维度提供基于具体时间戳和靶向答案的问题生成场景。相比现有EQG数据集使用的精编文本,AIRC包含平均3,447-10,075词的冗长转录文本,更精准模拟教育技术落地场景中的噪声处理挑战。其标注的500余道多选题均遵循教育有效性原则,排除无实质意义的选项。
使用方法
研究者可通过GitHub仓库获取多模态数据后,重点开发以下应用:1) 基于时间戳的动态上下文选择模型,从冗长转录文本和关键帧中提取与靶向答案相关的片段;2) 上下文重写机制,将原始课堂语言转化为含答案的原子化知识陈述;3) 多模态融合策略,协调语音转录与幻灯片视觉信息。评估时建议采用NLI分数衡量问题语义保真度,配合RQUGE指标检验答案可解性。数据集的时序对齐特性支持开发视频理解与教育评估相结合的创新算法。
背景与挑战
背景概述
AIRC(Artificial Intelligence in Real Classroom)数据集由美国圣母大学计算机科学系的Mengxia Yu、Bang Nguyen、Olivia Zino和Meng Jiang等研究人员于2025年创建,旨在解决教育领域中的自动问题生成(EQG)挑战。该数据集基于真实课堂的讲座视频,包含音频转录文本和幻灯片关键帧,为教育问题生成提供了更贴近实际教学场景的数据支持。AIRC的创建填补了现有EQG数据集依赖预定义文本的不足,推动了智能教育系统在自我评估、主动学习和个性化教育中的应用。
当前挑战
AIRC数据集面临的挑战主要包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,现有EQG方法在处理真实课堂的长且嘈杂的上下文时表现不佳,特别是在与特定时间戳和目标答案对齐方面存在困难。构建过程中的挑战包括从冗长的讲座转录中选择信息丰富的上下文,以及确保生成的问题有意义地包含目标答案。此外,真实课堂中的非正式语言、填充词和转录错误也增加了数据处理的复杂度。
常用场景
经典使用场景
AIRC数据集在智能教育系统中被广泛用于教育问题生成(EQG)的研究与应用。该数据集基于真实课堂的讲座视频和配套幻灯片,为研究者提供了丰富的多模态数据,包括语音转录文本和视觉关键帧。通过结合时间戳和目标答案,AIRC数据集能够支持动态上下文选择与重写,从而生成与教学内容高度相关的问题。这一经典使用场景不仅提升了问题生成的准确性和教育价值,还为个性化学习和自我评估提供了有力工具。
实际应用
在实际应用中,AIRC数据集为在线教育平台和智能辅导系统提供了强大的技术支持。教育机构可以利用该数据集训练模型,自动从讲座视频中生成高质量的多项选择题,大幅减轻教师手动出题的负担。同时,生成的题目能够精准覆盖教学重点,帮助学生进行针对性练习和自我评估。此外,AIRC支持的多模态处理能力使得系统能够同时利用语音和视觉信息,为特殊教育需求(如听力障碍学生)提供更包容的学习资源。
衍生相关工作
AIRC数据集催生了一系列重要的衍生研究。基于其多模态特性,研究者开发了如COSER框架等创新方法,通过大型语言模型实现动态上下文选择与重写。这些工作显著提升了视频教育内容的问题生成质量。此外,该数据集还启发了对长上下文建模、答案感知问题生成等方向的深入探索,相关成果发表在ACL、EMNLP等顶级会议上。AIRC提供的基准测试也为教育领域自然语言处理任务的评估指标创新(如NLI评分)提供了重要参考。
以上内容由遇见数据集搜集并总结生成



