CSTutorBench

github2025-05-19 更新2025-05-23 收录

下载链接：

https://github.com/Yunfeng-Wan/CSTutorBench

下载链接

链接失效反馈

官方服务：

资源简介：

CSTutorBench包含2,970个高质量的问题-答案对，这些数据是从学生和人类导师之间的真实对话中提取和精炼的，涵盖了多样化的主题，包括技术问题（如编程和算法）、行政查询（如截止日期和课程政策）以及元认知或寻求澄清的互动。

CSTutorBench encompasses 2,970 high-quality question-answer pairs extracted and refined from authentic dialogues between students and human tutors. It covers a diverse range of topics, including technical issues (such as programming and algorithms), administrative inquiries (such as deadlines and course policies), and metacognitive or clarification-seeking interactions.

创建时间：

2025-05-11

原始信息汇总

CSTutorBench 数据集概述

📊 数据集基本信息

名称: CSTutorBench
数据量: 2,970个高质量问答对
数据来源: 学生与人类导师之间的真实对话
主题范围:
- 技术问题（如编程和算法）
- 行政咨询（如截止日期和课程政策）
- 元认知或寻求澄清的互动

🎯 数据集用途

为领先的大型语言模型（如GPT-4o、Claude、Llama 4等）提供基准测试
通过自动指标和专家人工评估评估模型性能
为基于LLM的教育系统提供基础，满足计算机科学辅导的独特需求

🚀 快速开始指南

下载数据集:
- 下载链接: https://shorturl.at/aFyqQ
- 文件说明:
  - CSTBrech.json
  - Background文件夹
配置Evaluation.py:
- 需填写以下字段:
  - 输入JSON文件路径
  - 输出CSV文件路径
  - 测试模型的API密钥
  - 评估模型的API密钥（默认为GPT-4o）
  - 测试模型的名称
  - 评估模型的名称（默认为GPT-4o）
  - 并发线程数
运行Evaluation.py:
- 输出结果包含:
  - 对话ID
  - 类别
  - 人类导师和LLM导师的答案
  - LLM对分数的解释
  - 五个评估维度的分数
  - 加权总分

📫 联系方式

邮箱:
- yunfeng.wan@unsw.edu.au
- zekai.cheng@student.unsw.edu.au

搜集汇总

数据集介绍

构建方式

在计算机科学教育领域，高质量的师生互动数据对于开发智能辅导系统至关重要。CSTutorBench数据集通过精心筛选和整理2,970组真实师生对话构建而成，涵盖编程技术、算法问题、课程管理及元认知交流等多维度内容。研究人员采用严格的提取与优化流程，确保每个问答对都能准确反映计算机科学辅导场景中的典型交互模式，为后续模型评估提供了真实可靠的数据基础。

特点

该数据集最显著的特点在于其内容的多样性和真实性，不仅包含技术性问题的解决方案，还涉及课程管理咨询和学习策略指导等非技术性互动。每个问答对都经过专业处理，保留了原始对话的上下文完整性，特别适合评估大语言模型在复杂教育场景中的表现。数据集还配备了详细的背景资料和评估维度，使研究者能够从多个角度全面分析模型性能。

使用方法

使用该数据集时，研究者需先下载包含问答对的JSON文件及相关背景资料。通过修改Evaluation.py脚本中的API配置参数，可以对接不同的大语言模型进行自动化测试。评估系统会生成包含对话ID、问题分类、人工与AI回答对比、评分解释及多维评分的详细报告。这种标准化流程设计使得不同模型间的性能比较变得高效可靠，为计算机科学教育领域的AI研究提供了便捷的基准测试工具。

背景与挑战

背景概述

CSTutorBench作为计算机科学教育领域的重要数据集，由UNSW的研究团队于近年构建完成，旨在推动基于大语言模型（LLM）的智能辅导系统发展。该数据集包含2,970组经过精心提炼的师生对话数据，覆盖编程算法等技术性问题、课程管理等行政事务、以及元认知与澄清需求等多维度交互场景。其核心价值在于首次系统性地采集了真实教学环境中的对话语料，为教育人工智能研究提供了兼具生态效度与结构规范的基准测试平台。通过融合自动化指标与专家评估的双重验证体系，该数据集显著提升了LLM在复杂教育场景中表现的可解释性与可比性。

当前挑战

构建CSTutorBench面临双重维度的挑战：在问题解决层面，计算机科学辅导涉及代码动态执行、抽象概念解释等专业领域，要求模型兼具技术准确性与教学适切性，现有LLM往往难以平衡两者；在数据集构建层面，真实教学对话存在话题跳跃性强、隐含知识密度高等特性，需设计精细的语料清洗与标注框架。此外，评估环节需克服教育目标多维性带来的度量难题，如何建立兼顾知识点覆盖度、教学策略合理性、认知引导有效性的综合评价体系，仍是待突破的研究瓶颈。

常用场景

经典使用场景

在计算机科学教育领域，CSTutorBench数据集为研究者和开发者提供了一个高质量的基准测试平台，用于评估和优化大型语言模型在辅导场景中的表现。通过涵盖编程、算法、课程政策等多类问题，该数据集能够全面模拟真实的学生与导师互动场景，为模型训练和评估提供了丰富的数据支持。

实际应用

在实际应用中，CSTutorBench数据集可直接用于开发智能辅导系统，提升在线教育平台的交互质量。教育机构和技术公司可以利用该数据集训练定制化的语言模型，为学生提供即时、准确的编程问题解答和课程指导，从而显著提高学习效率和用户体验。

衍生相关工作

基于CSTutorBench数据集，研究者已经开展了一系列创新性工作，包括开发专门针对计算机科学教育的对话模型、设计更精准的自动评估指标，以及探索多模态教学辅助系统。这些工作不仅推动了教育智能化的发展，也为后续研究提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集