LLM-Generated Feedback Dataset

Name: LLM-Generated Feedback Dataset
Creator: 卡内基梅隆大学
Published: 2025-06-20 21:59:14
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://github.com/conradborchers/ai-feedback-exp/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由卡内基梅隆大学的研究团队创建，旨在研究大型语言模型（LLM）生成的解释性反馈对学习的影响。数据集包含来自885名辅导学习者的2,648个课程完成记录，涵盖了七个基于场景的辅导培训课程。研究通过比较不同组别学习者在后测中的表现，探讨了LLM反馈对学习的效果。数据集提供了对LLM反馈有效性的实证支持，为开放性任务的学习改进提供了低成本且可扩展的方法。

This dataset was developed by a research team at Carnegie Mellon University to investigate the impact of explanatory feedback generated by Large Language Models (LLMs) on learning. It contains 2,648 course completion records from 885 tutored learners, spanning seven scenario-based tutoring training courses. The study examined the effects of LLM feedback on learning by comparing the post-test performance of different learner groups. This dataset offers empirical evidence supporting the effectiveness of LLM-generated feedback, providing a low-cost and scalable method for improving learning in open-ended tasks.

提供机构：

卡内基梅隆大学

创建时间：

2025-06-20

搜集汇总

数据集介绍

构建方式

LLM-Generated Feedback Dataset的构建基于一项针对885名大学导师的实证研究，通过在线辅导平台收集了2,648次课程完成数据。研究采用随机对照试验设计，将参与者分为控制组（无LLM反馈）、意向治疗组（可选LLM反馈）和实际治疗组（使用LLM反馈）。数据采集过程中，系统通过GPT-3.5-turbo模型生成解释性反馈，并记录学习者的互动行为、后测表现及主观评价。为确保数据质量，研究采用倾向评分匹配法控制选择偏差，并通过人工标注与GPT-4o评分相结合的方式验证开放回答的评分一致性，组间相关系数（IRR）维持在0.64-0.91区间。

特点

该数据集的核心特点体现在三个方面：首先，其包含多维度的学习行为数据，包括LLM反馈请求频率、后测成绩（含选择题与开放题）、课程完成时间及学习者满意度评分；其次，数据具有层次化结构，既包含个体学习者跨课程的纵向追踪数据（平均每位参与者完成3.42门课程），也涵盖七种不同辅导场景（如错误应对、成长型思维培养）的横向对比；最后，数据集创新性地整合了生成式AI的输出产物，完整保留了LLM生成的解释性反馈文本及其对应的学习者原始回答，为研究AI反馈的语义适配性提供了独特资源。

使用方法

使用该数据集时，研究者可通过GitHub获取完整的课程日志数据、LLM提示模板及评分标准。对于因果推断研究，建议采用混合线性模型分析后测成绩，需纳入学习者和课程层面的随机截距以控制层次结构。若探究自我选择偏差的影响，可应用数据集提供的倾向评分变量进行匹配分析。实践应用中，开放响应数据配合LLM生成的改进建议，可用于训练反馈质量评估模型；而时间序列行为数据则适合挖掘帮助寻求行为模式。需注意，使用LLM评分部分时应参照论文披露的温度参数（temperature=0）和标记限制（300 tokens）以保证评分一致性。

背景与挑战

背景概述

LLM-Generated Feedback Dataset由卡内基梅隆大学的研究团队于2025年创建，主要研究人员包括Danielle R. Thomas、Conrad Borchers等。该数据集旨在探究大型语言模型（LLMs）生成的解释性反馈对学习效果的影响，特别是在基于场景的在线学习环境中。研究团队通过分析885名导师学习者在七种不同情境下的2600多次课程完成数据，比较了接受GPT-3.5-turbo生成反馈、拒绝反馈以及无反馈访问权限的学习者在后测表现上的差异。该研究不仅填补了生成式AI反馈在教育领域应用的实证空白，还为开放任务学习提供了低成本、可扩展的反馈解决方案，对智能教育系统和教师专业发展具有重要启示。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域问题层面，如何准确评估LLM生成反馈对开放场景学习效果的影响存在方法论难题，包括学习者自我选择偏差的干扰（高表现者更倾向使用反馈）以及跨情境效果的异质性；构建过程层面，需解决API调用失败率（15.7%）导致的数据缺失问题，开发有效的倾向评分模型以校正选择偏差，并建立可靠的人工智能评分标准（IRR 0.64-0.91）来评估开放响应答案。此外，确保生成的反馈既保持教学一致性又具备个性化指导价值，同时不增加学习者认知负荷，构成显著的技术实现挑战。

常用场景

经典使用场景

在在线教育平台中，LLM-Generated Feedback Dataset被广泛应用于场景式导师培训课程。该数据集通过提供即时、解释性反馈，帮助导师学习者在开放式任务中改进其教学策略。例如，在导师对学生的错误反应进行预测时，系统会基于预定义的教学策略生成反馈，指出其回答中的不足并提供改进建议。这种反馈不仅强化了正确的教学行为，还通过重新表述错误回答来提升学习效果。

实际应用

在实际应用中，该数据集支持了低成本、可扩展的在线专业发展培训。教育机构可将其集成至现有导师培训系统，在不增加完成时间的前提下提升学习效果。例如，在应对学生消极自我对话的教学场景中，导师通过接收LLM生成的针对性反馈，能够更快掌握研究支持的教学策略。数据集还显示出在保持教学效率的同时，93%的学习者认为AI反馈具有帮助性，这为教育AI的广泛采纳提供了实践参考。

衍生相关工作

基于该数据集衍生的经典工作包括GPT-4o在开放式回答自动评分中的应用，以及通过弹性网络回归模型预测学习者反馈使用倾向的研究。后续研究进一步探索了反馈生成中的少样本提示优化技术，开发了能识别教学响应关键要素的序列标注系统。这些工作推动了AI生成反馈从技术实现向教学有效性验证的范式转变，并为适应性反馈系统的开发提供了方法论指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集