LLM-Generated Feedback Dataset

Name: LLM-Generated Feedback Dataset
Creator: 卡内基梅隆大学
Published: 2025-06-20 21:59:14
License: 暂无描述

arXiv2025-06-20 更新2025-06-24 收录

下载链接：

https://github.com/conradborchers/ai-feedback-exp/

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集由卡内基梅隆大学的研究团队创建，旨在研究大型语言模型（LLM）生成的解释性反馈对学习的影响。数据集包含来自885名辅导学习者的2,648个课程完成记录，涵盖了七个基于场景的辅导培训课程。研究通过比较不同组别学习者在后测中的表现，探讨了LLM反馈对学习的效果。数据集提供了对LLM反馈有效性的实证支持，为开放性任务的学习改进提供了低成本且可扩展的方法。

提供机构：

卡内基梅隆大学

创建时间：

2025-06-20

搜集汇总

数据集介绍

构建方式

LLM-Generated Feedback Dataset的构建基于一项针对885名大学导师的实证研究，通过在线辅导平台收集了2,648次课程完成数据。研究采用随机对照试验设计，将参与者分为控制组（无LLM反馈）、意向治疗组（可选LLM反馈）和实际治疗组（使用LLM反馈）。数据采集过程中，系统通过GPT-3.5-turbo模型生成解释性反馈，并记录学习者的互动行为、后测表现及主观评价。为确保数据质量，研究采用倾向评分匹配法控制选择偏差，并通过人工标注与GPT-4o评分相结合的方式验证开放回答的评分一致性，组间相关系数（IRR）维持在0.64-0.91区间。

特点

该数据集的核心特点体现在三个方面：首先，其包含多维度的学习行为数据，包括LLM反馈请求频率、后测成绩（含选择题与开放题）、课程完成时间及学习者满意度评分；其次，数据具有层次化结构，既包含个体学习者跨课程的纵向追踪数据（平均每位参与者完成3.42门课程），也涵盖七种不同辅导场景（如错误应对、成长型思维培养）的横向对比；最后，数据集创新性地整合了生成式AI的输出产物，完整保留了LLM生成的解释性反馈文本及其对应的学习者原始回答，为研究AI反馈的语义适配性提供了独特资源。

使用方法

使用该数据集时，研究者可通过GitHub获取完整的课程日志数据、LLM提示模板及评分标准。对于因果推断研究，建议采用混合线性模型分析后测成绩，需纳入学习者和课程层面的随机截距以控制层次结构。若探究自我选择偏差的影响，可应用数据集提供的倾向评分变量进行匹配分析。实践应用中，开放响应数据配合LLM生成的改进建议，可用于训练反馈质量评估模型；而时间序列行为数据则适合挖掘帮助寻求行为模式。需注意，使用LLM评分部分时应参照论文披露的温度参数（temperature=0）和标记限制（300 tokens）以保证评分一致性。

背景与挑战

背景概述

LLM-Generated Feedback Dataset由卡内基梅隆大学的研究团队于2025年创建，主要研究人员包括Danielle R. Thomas、Conrad Borchers等。该数据集旨在探究大型语言模型（LLMs）生成的解释性反馈对学习效果的影响，特别是在基于场景的在线学习环境中。研究团队通过分析885名导师学习者在七种不同情境下的2600多次课程完成数据，比较了接受GPT-3.5-turbo生成反馈、拒绝反馈以及无反馈访问权限的学习者在后测表现上的差异。该研究不仅填补了生成式AI反馈在教育领域应用的实证空白，还为开放任务学习提供了低成本、可扩展的反馈解决方案，对智能教育系统和教师专业发展具有重要启示。

当前挑战

该数据集面临的核心挑战体现在两个方面：领域问题层面，如何准确评估LLM生成反馈对开放场景学习效果的影响存在方法论难题，包括学习者自我选择偏差的干扰（高表现者更倾向使用反馈）以及跨情境效果的异质性；构建过程层面，需解决API调用失败率（15.7%）导致的数据缺失问题，开发有效的倾向评分模型以校正选择偏差，并建立可靠的人工智能评分标准（IRR 0.64-0.91）来评估开放响应答案。此外，确保生成的反馈既保持教学一致性又具备个性化指导价值，同时不增加学习者认知负荷，构成显著的技术实现挑战。

常用场景

经典使用场景

在在线教育平台中，LLM-Generated Feedback Dataset被广泛应用于场景式导师培训课程。该数据集通过提供即时、解释性反馈，帮助导师学习者在开放式任务中改进其教学策略。例如，在导师对学生的错误反应进行预测时，系统会基于预定义的教学策略生成反馈，指出其回答中的不足并提供改进建议。这种反馈不仅强化了正确的教学行为，还通过重新表述错误回答来提升学习效果。

实际应用

在实际应用中，该数据集支持了低成本、可扩展的在线专业发展培训。教育机构可将其集成至现有导师培训系统，在不增加完成时间的前提下提升学习效果。例如，在应对学生消极自我对话的教学场景中，导师通过接收LLM生成的针对性反馈，能够更快掌握研究支持的教学策略。数据集还显示出在保持教学效率的同时，93%的学习者认为AI反馈具有帮助性，这为教育AI的广泛采纳提供了实践参考。

衍生相关工作

基于该数据集衍生的经典工作包括GPT-4o在开放式回答自动评分中的应用，以及通过弹性网络回归模型预测学习者反馈使用倾向的研究。后续研究进一步探索了反馈生成中的少样本提示优化技术，开发了能识别教学响应关键要素的序列标注系统。这些工作推动了AI生成反馈从技术实现向教学有效性验证的范式转变，并为适应性反馈系统的开发提供了方法论指导。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集