koutch/stackoverflow_question_types
收藏Hugging Face2023-04-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/stackoverflow_question_types
下载链接
链接失效反馈官方服务:
资源简介:
最近的研究探讨了利用StackOverflow(SO)上的数据来训练大型语言模型以处理编程相关任务。然而,用户在StackOverflow上可以提出各种问题;stackoverflow question types数据集是一个手动标注的SO问题数据集,每个问题都有一个关联的类型。根据先前的研究,每个问题都被标注为一个类型,以捕捉提问者的主要关注点。问题被标注为以下类型:Need to know(需要知道)、How to do it(如何做)、Debug/corrective(调试/纠正)、Seeking different solutions(寻求不同的解决方案)、Conceptual(概念性)和Other(其他)。该数据集主要关注与编程相关的问题,特别是带有Python标签的问题。问题是用英语编写的。
最近的研究探讨了利用StackOverflow(SO)上的数据来训练大型语言模型以处理编程相关任务。然而,用户在StackOverflow上可以提出各种问题;stackoverflow question types数据集是一个手动标注的SO问题数据集,每个问题都有一个关联的类型。根据先前的研究,每个问题都被标注为一个类型,以捕捉提问者的主要关注点。问题被标注为以下类型:Need to know(需要知道)、How to do it(如何做)、Debug/corrective(调试/纠正)、Seeking different solutions(寻求不同的解决方案)、Conceptual(概念性)和Other(其他)。该数据集主要关注与编程相关的问题,特别是带有Python标签的问题。问题是用英语编写的。
提供机构:
koutch
原始信息汇总
数据集概述
数据集名称
"stackoverflow_question_types"
数据集描述
本数据集包含StackOverflow上手动标注的问题,每个问题都有一个关联的类型,用于捕捉提问者的主要关注点。问题类型包括:
- Need to know
- How to do it
- Debug/corrective
- Seeking different solutions
- Conceptual
- Other
数据集特征
- question_id: int64
- title: string
- question_body: string
- question_type: string
- question_date: string
数据集结构
- 训练集:3449个样本,总大小3433758字节
- 测试集:14个样本,总大小12055字节
数据集语言
- 英语
数据集标签
- question_type 包含以下类别:
- "needtoknow"
- "howto"
- "debug"
- "seeking"
- "conceptual"
- "other"
数据集用途
主要用于编程相关任务的语言模型训练。
数据集来源
数据集中的问题来自stackoverflow_python数据集的一个子集。
数据集注释
数据集大小
- 总大小:3445813字节
- 下载大小:0字节
- 样本数量:3463(训练集+测试集)
数据集许可证
- cc
搜集汇总
数据集介绍

以上内容由遇见数据集搜集并总结生成



