lesson log data, human annotation rubrics, and LLM prompts

Name: lesson log data, human annotation rubrics, and LLM prompts
Creator: 卡内基梅隆大学
Published: 2024-12-14 00:37:20
License: 暂无描述

arXiv2024-12-14 更新2024-12-25 收录

下载链接：

http://arxiv.org/abs/2412.10267v1

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集由卡内基梅隆大学的研究团队创建，旨在评估多项选择题（MCQ）和开放式问题在教学中的有效性。数据集包含790条课程日志数据，以及用于评估开放式问题的人工注释评分标准和生成式AI（LLM）提示。数据集的创建过程结合了随机对照实验设计，通过嵌入六个关于倡导的辅导课程来收集数据。该数据集主要应用于教育领域，特别是用于优化辅导培训，评估不同教学方法的效率和效果，并探索生成式AI在自动评分中的应用。

This dataset was developed by a research team at Carnegie Mellon University to assess the effectiveness of multiple-choice questions (MCQs) and open-ended questions in educational practice. It encompasses 790 course log records, alongside manual annotation scoring rubrics for open-ended question evaluation and generative AI (Large Language Model, LLM) prompts. The dataset was constructed using a randomized controlled trial design, with data collected via the integration of six advocacy-focused tutoring sessions. This dataset finds primary application in the education domain, specifically for optimizing tutor training, evaluating the efficiency and efficacy of diverse teaching methodologies, and exploring the use of generative AI in automated scoring.

提供机构：

卡内基梅隆大学

创建时间：

2024-12-14

搜集汇总

数据集介绍

构建方式

该数据集的构建基于一项随机对照试验，旨在比较多项选择题（MCQ）与开放式问题在学习效果上的差异。研究设计了六节关于倡导技能的辅导课程，并通过后测评估了234名辅导员的790次课程完成情况。数据集中包含了课程日志数据、人工标注的评分标准以及用于自动评分的LLM提示。研究采用后测设计，避免了前测可能带来的偏差，确保了实验结果的可靠性。

特点

该数据集的特点在于其多样性和丰富性，涵盖了多项选择题、开放式问题以及两者的结合。数据集不仅记录了辅导员的学习表现，还包含了详细的课程日志和人工标注的评分标准，确保了数据的透明性和可重复性。此外，数据集还提供了使用GPT-4和GPT-4-turbo进行自动评分的提示，展示了生成式AI在教育评估中的潜力。

使用方法

该数据集的使用方法包括通过课程日志数据分析和比较不同学习条件下的学习效果。研究人员可以利用人工标注的评分标准对开放式问题进行评分，或使用提供的LLM提示进行自动评分。数据集还可用于进一步研究生成式AI在教育评估中的应用，特别是在低风险评估任务中的表现。通过分析数据集，研究人员可以探索多项选择题与开放式问题在学习效率和效果上的差异，并为优化辅导课程设计提供依据。

背景与挑战

背景概述

由卡内基梅隆大学的研究团队于2025年创建的“lesson log data, human annotation rubrics, and LLM prompts”数据集，旨在探讨在生成式人工智能（Generative AI）时代，选择题（MCQs）与开放式问题在学习和评估中的有效性。该数据集基于一项随机对照试验，研究了234名导师在六节关于倡导技能的课程中的表现，比较了仅使用选择题、仅使用开放式问题以及两者结合的学习效果。研究结果表明，选择题在时间效率上优于开放式问题，且两者的学习效果无显著差异。该数据集为学习分析领域提供了透明性和可重复性支持，推动了生成式AI在教育评估中的应用。

当前挑战

该数据集面临的挑战主要包括两个方面。首先，在领域问题方面，尽管选择题在时间效率上具有优势，但其是否能够促进深度学习仍存在争议。开放式问题虽然被认为能够激发高阶思维，但其评估过程耗时且资源密集。其次，在数据集构建过程中，如何确保生成式AI（如GPT-4）对开放式问题的评估准确性和一致性是一个关键挑战。尽管GPT模型在低风险评估中表现出色，但其在处理复杂或情境化问题时的表现仍需进一步优化。此外，如何设计有效的提示工程（prompt engineering）以提升AI模型的评估能力，也是未来研究的重要方向。

常用场景

经典使用场景

该数据集在教育和学习分析领域中被广泛用于评估不同题型（如选择题和开放式问题）对学习效果的影响。通过对比选择题与开放式问题在辅导课程中的应用，研究者能够深入探讨哪种题型更有效地促进学习，尤其是在时间有限的情况下。数据集中的课程日志数据、人工标注标准和LLM提示为研究提供了丰富的实验素材，帮助验证生成式AI在自动评分中的潜力。

衍生相关工作

该数据集衍生了一系列关于生成式AI在教育评估中的应用研究。例如，研究者利用GPT-4和GPT-4-turbo模型对开放式问题进行自动评分，验证了其在低风险评估中的有效性。此外，数据集还推动了提示工程技术的发展，如少样本学习和链式思维提示，这些方法被广泛应用于其他教育场景中，如学生解释的自动评估和辅导实践的反馈生成。这些相关工作进一步拓展了生成式AI在教育领域的应用范围，为未来的教育技术研究提供了重要参考。

数据集最近研究