majeedkazemi/students-coding-questions-from-ai-assistant
收藏数据集文档
概述
该数据集包含6776个问题,这些问题是由学生在使用AI编程助手CodeAid时提出的,涉及C语言编程课程,时间跨度为2023年1月至4月的12周学期。课程禁止使用ChatGPT,但允许使用CodeAid。CodeAid基于GPT-3,即使在被学生请求时也不直接提供代码解决方案,而是以自然语言提供分步响应,生成交互式伪代码,并提出修复建议,但不直接展示修正后的代码。
数据集使用场景
- 查询分类:该数据集可用于开发模型,将查询分类为论文中解释的类别,例如:代码和概念澄清、特定功能查询、代码执行探针、错误代码解决、问题源识别、错误消息解释、高级编码指导和直接代码请求。
- 构建分步LLM响应:该数据集可用于迭代设计和测试显示分步响应的LLM驱动的交互界面,不同于CodeAid中的响应。
- 教育中的AI研究:研究人员可以使用该数据集研究LLM在教育环境中的作用和有效性,从而洞察如何将AI整合到课堂中以提高学习成果。
- 性能基准测试:工具设计者可以利用真实的学生查询来基准测试其工具和模型的性能,帮助他们迭代和改进工具和模型。
数据集结构
数据集包含以下列:
- user_id:用户的唯一标识符。类型:字符串。
- time:事件发生的时间戳。格式:ISO 8601,类型:日期时间。
- feature_type:描述行的特征类型,例如,Question from Code。类型:字符串。
- feature_version:特征的版本。类型:字符串。值:
"v1"(使用code-davinci-002),"v2"(使用gpt-3.5-turbo-1106) - input_question:用户输入的问题。当
feature_type为"General Question"或"Question from Code"时存在。 - input_code:用户提供的代码片段。当
feature_type为"General Question"、"Question from Code"、"Help Fix Code"或"Explain Code"时存在。 - input_intention:用户希望通过代码实现的目标的简要描述。当
feature_type为"Help Fix Code"时存在。 - input_task_description:为编写代码的任务的详细描述。当
feature_type为"Help Write Code"时存在。
引用
如果您在研究中使用此数据集,请引用CHI 2024论文:https://arxiv.org/abs/2401.11314
@article{kazemitabaar2024codeaid,
title={CodeAid: Evaluating a Classroom Deployment of an LLM-based Programming Assistant that Balances Student and Educator Needs},
author={Kazemitabaar, Majeed and Ye, Runlong and Wang, Xiaoning and Henley, Austin Z and Denny, Paul and Craig, Michelle and Grossman, Tovi},
booktitle={Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems},
year={2024}
}
许可证
该数据集根据知识共享署名-非商业性4.0国际许可协议(CC BY-NC 4.0)进行许可。您可以自由分享(以任何媒介或格式复制和重新分发材料)和改编(重新混合、转换和构建材料),但需遵守以下条件:
- 署名:您必须给予适当的署名,提供许可证的链接,并指明是否进行了更改。您可以以任何合理的方式进行署名,但不得以任何方式暗示许可方认可您或您的使用。
- 非商业性:您不得将材料用于商业目的。
更多详情,请访问Creative Commons — Attribution-NonCommercial 4.0 International — CC BY-NC 4.0。



