Lynnette对话数据集
收藏arXiv2025-04-08 更新2025-04-10 收录
下载链接:
http://arxiv.org/abs/2504.05570v1
下载链接
链接失效反馈官方服务:
资源简介:
Lynnette对话数据集来自开源智能辅导系统Lynnette,该系统用于练习数学方程求解。数据集包含10对学生与家长的对对话数据,捕捉了学生在解题过程中的各种互动,如正确进行、犯错误或与家长进行持续对话等。这些数据来自一个大学附属推广项目和社会媒体的招募。数据集旨在为评估大型语言模型在辅导系统适应性方面的性能提供基准。
The Lynnette Dialogue Dataset is sourced from Lynnette, an open-source intelligent tutoring system dedicated to practicing mathematical equation solving. The dataset contains 10 pairs of student-parent dialogues, capturing diverse interactions during students' problem-solving processes, such as correct problem-solving attempts, errors made, and ongoing conversations with their parents. This data was collected via a university-affiliated outreach program and social media recruitment. The dataset is intended to serve as a benchmark for evaluating the performance of large language models (LLMs) in adaptive tutoring systems.
提供机构:
卡内基梅隆大学
创建时间:
2025-04-08
搜集汇总
数据集介绍

构建方式
Lynnette对话数据集的构建基于开源智能辅导系统Lynnette,该系统专为数学方程求解练习设计。数据集收集了10对学生与家长之间的对话数据,涵盖75个辅导场景,每个场景以30秒的日志数据片段形式呈现,记录了学生在解题过程中的正确步骤、错误步骤、系统提示以及家长与学生的互动对话。通过系统化的提示工程框架,研究者动态整合问题解决上下文(如当前问题、学生步骤历史、知识组件等)生成多样化提示,并输入至三种代表性大语言模型(Llama3-8B、Llama3-70B和GPT-4o),最终产生1,350条教学建议。
使用方法
使用该数据集时,研究者可通过开源基准代码复现完整的评估流程。典型应用包括:1)适应性分析,将模型生成的教学建议转化为嵌入向量,通过余弦相似度度量其与上下文特征的统计相关性;2)教学合理性评估,利用预训练分类器对生成内容进行二元评分(合理/不合理);3)生成多样性研究,借助主成分分析可视化不同模型的语义输出分布。需注意输入数据需严格遵循原始提示模板结构,动态插入{占位符}以保持上下文一致性。对于教学干预研究,建议结合知识组件元数据过滤特定数学技能相关的交互场景。
背景与挑战
背景概述
Lynnette对话数据集由卡内基梅隆大学的Conrad Borchers和Tianze Shou等研究人员于2025年创建,旨在评估大型语言模型(LLMs)在智能辅导系统(ITS)中的适应性。该数据集基于开源ITS Lynnette,专注于数学方程求解的辅导场景,包含75个真实世界的辅导情境,涉及学生与家长之间的对话数据。Lynnette系统通过逐步反馈和提示引导学生解决问题,其核心研究问题是探究LLMs能否像ITS一样,根据学生的知识状态和错误动态调整教学策略。该数据集为教育人工智能领域提供了重要的基准,推动了LLMs在个性化学习中的应用研究。
当前挑战
Lynnette对话数据集面临的主要挑战包括两个方面:领域问题的挑战和构建过程的挑战。在领域问题方面,LLMs需要准确识别学生的错误并提供符合教学原则的反馈,但现有模型如GPT-4o和Llama3系列在适应性和教学连贯性上表现有限,难以像ITS那样动态调整教学策略。在构建过程中,数据集的创建需处理复杂的上下文信息(如学生错误历史、知识组件等),并通过系统化的提示工程生成多样化的教学响应。此外,评估LLMs输出的教学质量和适应性需要创新的统计方法(如随机化检验和文本嵌入分析),这对数据标注和模型验证提出了较高要求。
常用场景
经典使用场景
Lynnette对话数据集在智能教育领域具有重要应用价值,尤其在评估大型语言模型(LLMs)与智能辅导系统(ITS)的适应性方面表现突出。该数据集通过记录学生与家长在数学方程求解过程中的互动对话,为研究者提供了丰富的真实场景数据。数据集中的75个辅导场景涵盖了学生正确解题、犯错以及请求帮助等多种情况,这些场景被系统性地用于测试LLMs在不同上下文条件下的响应能力。通过精心设计的提示工程框架,研究者可以精确控制输入信息的组成,从而深入分析LLMs对关键教学要素(如学生错误、知识组件等)的敏感程度。
解决学术问题
该数据集有效解决了智能教育领域两个关键学术问题:一是量化评估LLMs在教学场景中的上下文适应能力,填补了现有研究中缺乏系统性评估方法的空白;二是揭示了LLMs与传统ITS在教学设计原理上的本质差异。通过文本嵌入和随机化检验等创新方法,研究证实当前LLMs仅能有限地模仿ITS的适应性特征,特别是在响应学生错误方面表现相对较好。这一发现为理解LLMs在教育应用中的局限性提供了实证依据,推动了关于如何改进LLMs教学能力的深入讨论。
实际应用
在实际应用层面,Lynnette数据集为开发混合式智能辅导系统提供了重要参考。教育科技公司可利用该数据集训练模型识别学生解题过程中的关键节点,优化实时反馈机制。教师培训项目可以基于数据集中的对话范例,帮助教育工作者掌握更有效的辅导策略。数据集特别适用于代数方程求解等结构化知识领域的智能辅导系统开发,其包含的知识组件标注体系可直接迁移到类似学科的教学系统设计中。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)在教育技术领域的广泛应用,Lynnette对话数据集的最新研究聚焦于评估LLMs在智能辅导系统(ITS)中的适应性能力。研究通过系统性地移除关键上下文组件(如学生错误和知识组件),生成了1,350条教学建议,并利用文本嵌入和随机化测试来衡量LLMs的输出适应性。结果显示,即使是性能最佳的模型(如Llama3-70B)也仅能有限地模拟ITS的适应性,尤其是在响应学生错误方面表现显著。此外,研究还发现,尽管Llama3-8B在教学建议的 pedagogical soundness 评分上表现较好,但其在指令遵循行为上存在明显不足。这一研究不仅揭示了当前LLMs在模拟ITS适应性方面的局限性,还为未来优化LLM-based tutoring系统提供了重要的方法论支持。
相关研究论文
- 1Can Large Language Models Match Tutoring System Adaptivity? A Benchmarking Study卡内基梅隆大学 · 2025年
以上内容由遇见数据集搜集并总结生成



