five

LLM-Generated Feedback Dataset

收藏
arXiv2025-06-20 更新2025-06-24 收录
下载链接:
https://github.com/conradborchers/ai-feedback-exp/
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集由卡内基梅隆大学的研究团队创建,旨在研究大型语言模型(LLM)生成的解释性反馈对学习的影响。数据集包含来自885名辅导学习者的2,648个课程完成记录,涵盖了七个基于场景的辅导培训课程。研究通过比较不同组别学习者在后测中的表现,探讨了LLM反馈对学习的效果。数据集提供了对LLM反馈有效性的实证支持,为开放性任务的学习改进提供了低成本且可扩展的方法。
提供机构:
卡内基梅隆大学
创建时间:
2025-06-20
搜集汇总
数据集介绍
main_image_url
构建方式
LLM-Generated Feedback Dataset的构建基于一项针对885名大学导师的实证研究,通过在线辅导平台收集了2,648次课程完成数据。研究采用随机对照试验设计,将参与者分为控制组(无LLM反馈)、意向治疗组(可选LLM反馈)和实际治疗组(使用LLM反馈)。数据采集过程中,系统通过GPT-3.5-turbo模型生成解释性反馈,并记录学习者的互动行为、后测表现及主观评价。为确保数据质量,研究采用倾向评分匹配法控制选择偏差,并通过人工标注与GPT-4o评分相结合的方式验证开放回答的评分一致性,组间相关系数(IRR)维持在0.64-0.91区间。
特点
该数据集的核心特点体现在三个方面:首先,其包含多维度的学习行为数据,包括LLM反馈请求频率、后测成绩(含选择题与开放题)、课程完成时间及学习者满意度评分;其次,数据具有层次化结构,既包含个体学习者跨课程的纵向追踪数据(平均每位参与者完成3.42门课程),也涵盖七种不同辅导场景(如错误应对、成长型思维培养)的横向对比;最后,数据集创新性地整合了生成式AI的输出产物,完整保留了LLM生成的解释性反馈文本及其对应的学习者原始回答,为研究AI反馈的语义适配性提供了独特资源。
使用方法
使用该数据集时,研究者可通过GitHub获取完整的课程日志数据、LLM提示模板及评分标准。对于因果推断研究,建议采用混合线性模型分析后测成绩,需纳入学习者和课程层面的随机截距以控制层次结构。若探究自我选择偏差的影响,可应用数据集提供的倾向评分变量进行匹配分析。实践应用中,开放响应数据配合LLM生成的改进建议,可用于训练反馈质量评估模型;而时间序列行为数据则适合挖掘帮助寻求行为模式。需注意,使用LLM评分部分时应参照论文披露的温度参数(temperature=0)和标记限制(300 tokens)以保证评分一致性。
背景与挑战
背景概述
LLM-Generated Feedback Dataset由卡内基梅隆大学的研究团队于2025年创建,主要研究人员包括Danielle R. Thomas、Conrad Borchers等。该数据集旨在探究大型语言模型(LLMs)生成的解释性反馈对学习效果的影响,特别是在基于场景的在线学习环境中。研究团队通过分析885名导师学习者在七种不同情境下的2600多次课程完成数据,比较了接受GPT-3.5-turbo生成反馈、拒绝反馈以及无反馈访问权限的学习者在后测表现上的差异。该研究不仅填补了生成式AI反馈在教育领域应用的实证空白,还为开放任务学习提供了低成本、可扩展的反馈解决方案,对智能教育系统和教师专业发展具有重要启示。
当前挑战
该数据集面临的核心挑战体现在两个方面:领域问题层面,如何准确评估LLM生成反馈对开放场景学习效果的影响存在方法论难题,包括学习者自我选择偏差的干扰(高表现者更倾向使用反馈)以及跨情境效果的异质性;构建过程层面,需解决API调用失败率(15.7%)导致的数据缺失问题,开发有效的倾向评分模型以校正选择偏差,并建立可靠的人工智能评分标准(IRR 0.64-0.91)来评估开放响应答案。此外,确保生成的反馈既保持教学一致性又具备个性化指导价值,同时不增加学习者认知负荷,构成显著的技术实现挑战。
常用场景
经典使用场景
在在线教育平台中,LLM-Generated Feedback Dataset被广泛应用于场景式导师培训课程。该数据集通过提供即时、解释性反馈,帮助导师学习者在开放式任务中改进其教学策略。例如,在导师对学生的错误反应进行预测时,系统会基于预定义的教学策略生成反馈,指出其回答中的不足并提供改进建议。这种反馈不仅强化了正确的教学行为,还通过重新表述错误回答来提升学习效果。
实际应用
在实际应用中,该数据集支持了低成本、可扩展的在线专业发展培训。教育机构可将其集成至现有导师培训系统,在不增加完成时间的前提下提升学习效果。例如,在应对学生消极自我对话的教学场景中,导师通过接收LLM生成的针对性反馈,能够更快掌握研究支持的教学策略。数据集还显示出在保持教学效率的同时,93%的学习者认为AI反馈具有帮助性,这为教育AI的广泛采纳提供了实践参考。
衍生相关工作
基于该数据集衍生的经典工作包括GPT-4o在开放式回答自动评分中的应用,以及通过弹性网络回归模型预测学习者反馈使用倾向的研究。后续研究进一步探索了反馈生成中的少样本提示优化技术,开发了能识别教学响应关键要素的序列标注系统。这些工作推动了AI生成反馈从技术实现向教学有效性验证的范式转变,并为适应性反馈系统的开发提供了方法论指导。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作