QACP

Name: QACP
Creator: 北京大学
Published: 2024-02-23 10:35:41
License: 暂无描述

arXiv2024-02-23 更新2024-06-21 收录

下载链接：

https://github.com/NTAIX/Chinese-Python-QA-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

QACP数据集是专为中文Python学习者设计的单轮问答数据集，由北京大学开发。该数据集包含10,960个来自不同学习阶段Python学习者的问题，涵盖了Python课程的各个知识点。数据集的创建过程包括从实际学生问题中收集数据，并根据问题的类型和学习者的类型进行分类。此数据集旨在为智能教育系统中的编程教学提供高质量的数据支持，特别关注解决AI助手在编程教育中数据稀缺的问题。

The QACP dataset is a single-turn question answering (QA) dataset specifically tailored for Chinese Python learners, developed by Peking University. It comprises 10,960 questions submitted by Python learners across various learning stages, covering all knowledge points in Python courses. The dataset construction workflow includes collecting data from real-world student questions and categorizing them based on both question types and learner profiles. This dataset aims to offer high-quality data support for programming teaching in intelligent education systems, with a particular emphasis on addressing the data scarcity issue faced by AI assistants in programming education.

提供机构：

北京大学

创建时间：

2024-01-30

搜集汇总

数据集介绍

构建方式

QACP数据集由北京大学与北京课工场教育科技有限公司联合构建，旨在为中文Python学习者提供高质量的问答资源。数据收集阶段，研究团队从线上线下渠道采集了50,247条真实学生提问，覆盖从基础概念到复杂编程问题的全知识图谱。随后，由经验丰富的Python教育专家对问题进行清洗、分类与重构，剔除重复、模糊或与学习无关的条目，最终精选出10,960条高质量问题。答案标注环节，16名专业讲师依据布鲁姆教育目标分类学、认知负荷理论及情感教育理论，从可理解的解答、经典类比和实用代码示例三个维度精心设计答案，并采用双轮验证机制确保标注的准确性与一致性。

使用方法

QACP数据集可直接用于训练和评估面向中文Python学习者的问答系统。研究人员可利用其单轮问答结构，对大型语言模型进行监督微调或检索增强生成，以提升模型在编程教育场景下的回答准确性与教学能力。数据集还提供了三项基准测试任务：答案解释正确性、问答一致性及示例有用性，可用于系统评估模型的专业知识推理与中文理解水平。使用时，建议将问题按学习者类型和知识点模块进行划分，以支持个性化学习路径的构建，并参考论文中的评估指标（如综合满意度指数）进行模型性能对比。

背景与挑战

背景概述

随着生成式人工智能的蓬勃发展，大型语言模型在教育领域，尤其是编程教学辅助中展现出巨大潜力。然而，现有通用模型在回答中文Python编程问题时，常出现常识性错误，且缺乏针对中文学习者的专用数据集。为此，北京大学与北大青鸟等机构的研究团队于2024年提出了QACP（Question Answering dataset for Assisting Chinese Python programming learners）数据集。该数据集聚焦于解决中文Python学习者在在线学习平台中面临的数据稀缺问题，旨在为开发智能编程教学助手提供高质量的数据基础。QACP包含10,960个真实学生提问，并按问题类型、学习者类型等多维度进行精细标注，涵盖了从基础概念到复杂算法的完整知识体系。其构建过程严格遵循教育学理论，如布鲁姆教育目标分类法和认知负荷理论，确保答案不仅准确，而且具备启发性和激励性。该数据集的发布填补了中文Python编程教育领域问答数据的空白，为评估和优化大型语言模型在垂直教育场景中的表现提供了重要基准，对推动智能化编程教育具有里程碑意义。

当前挑战

QACP数据集所面对的挑战主要体现在两个层面。首先，在领域问题层面，核心挑战在于通用大型语言模型在回答专业Python编程问题时存在显著的知识局限与幻觉现象。实验表明，即便是性能最强的GPT-4，在代码逻辑准确性和专业内容解释方面仍无法达到令人满意的水平，其错误率高达15%左右，而部分开源模型的表现更是不尽人意。这种不稳定性在编程教学场景中尤为致命，可能误导学习者，降低其对AI助手的信任。其次，在数据集构建过程中，挑战同样严峻。确保问题来源的真实性与代表性需要从海量、背景各异的学习者中采集数据，并经过经验丰富的Python教育者进行多轮筛选、分类与重构，以剔除重复、模糊或与Python学习无关的问题。答案标注环节则更为复杂，需由16名专业讲师组成的团队，依据教育学原理设计出包含可理解性回答、经典类比和实用代码示例的三维答案，并通过双重验证机制与一致性检验（kappa值达0.89）来保障质量，这一过程耗费了大量的人力与时间成本。

常用场景

经典使用场景

QACP数据集专为中文Python编程学习者设计，广泛应用于构建和评估智能编程教学助手的问答系统。研究者利用该数据集训练大语言模型，使其能够精准理解学习者提出的多样化问题，并生成包含概念解释、类比说明和代码示例的多维答案，从而提升在线编程教育中AI助教的回答质量与教学效果。该数据集覆盖从基础语法到复杂算法的全知识图谱，为面向中文场景的编程教育模型提供了标准化的训练与测试基准。

解决学术问题

该数据集有效解决了编程教育领域中高质量中文问答语料匮乏的学术难题。现有的编程问答资源多集中于英文场景或Matlab、C等语言，而面向知识背景多元的中文Python学习者的专用数据集几乎空白。QACP通过收集真实学生问题并依据教育理论（如布鲁姆认知目标分类）进行多维度标注，为研究大语言模型在编程教学中的专业知识推理能力、答案准确性、示例实用性及学习者类型适配性提供了可靠的数据支撑，推动了垂直领域教育AI的发展。

实际应用

在实际应用中，QACP数据集被用于开发面向中文Python学习者的智能教学助手系统。这类系统可部署于在线教育平台，自动回答学生在学习过程中产生的海量疑问，显著降低人工助教的成本。同时，数据集支持个性化学习：系统可根据学习者类型（初学者或有编程经验者）调整回答的详细程度与代码示例复杂度，提供因材施教的辅导体验。此外，该数据还可用于评估通用大模型（如GPT-4、ChatGLM）在编程教学场景下的表现，辅助教育机构选择或定制最适合的AI工具。

数据集最近研究