five

koutch/stackoverflow_question_types

收藏
Hugging Face2023-04-10 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/stackoverflow_question_types
下载链接
链接失效反馈
官方服务:
资源简介:
最近的研究探讨了利用StackOverflow(SO)上的数据来训练大型语言模型以处理编程相关任务。然而,用户在StackOverflow上可以提出各种问题;stackoverflow question types数据集是一个手动标注的SO问题数据集,每个问题都有一个关联的类型。根据先前的研究,每个问题都被标注为一个类型,以捕捉提问者的主要关注点。问题被标注为以下类型:Need to know(需要知道)、How to do it(如何做)、Debug/corrective(调试/纠正)、Seeking different solutions(寻求不同的解决方案)、Conceptual(概念性)和Other(其他)。该数据集主要关注与编程相关的问题,特别是带有Python标签的问题。问题是用英语编写的。

最近的研究探讨了利用StackOverflow(SO)上的数据来训练大型语言模型以处理编程相关任务。然而,用户在StackOverflow上可以提出各种问题;stackoverflow question types数据集是一个手动标注的SO问题数据集,每个问题都有一个关联的类型。根据先前的研究,每个问题都被标注为一个类型,以捕捉提问者的主要关注点。问题被标注为以下类型:Need to know(需要知道)、How to do it(如何做)、Debug/corrective(调试/纠正)、Seeking different solutions(寻求不同的解决方案)、Conceptual(概念性)和Other(其他)。该数据集主要关注与编程相关的问题,特别是带有Python标签的问题。问题是用英语编写的。
提供机构:
koutch
原始信息汇总

数据集概述

数据集名称

"stackoverflow_question_types"

数据集描述

本数据集包含StackOverflow上手动标注的问题,每个问题都有一个关联的类型,用于捕捉提问者的主要关注点。问题类型包括:

  • Need to know
  • How to do it
  • Debug/corrective
  • Seeking different solutions
  • Conceptual
  • Other

数据集特征

  • question_id: int64
  • title: string
  • question_body: string
  • question_type: string
  • question_date: string

数据集结构

  • 训练集:3449个样本,总大小3433758字节
  • 测试集:14个样本,总大小12055字节

数据集语言

  • 英语

数据集标签

  • question_type 包含以下类别:
    • "needtoknow"
    • "howto"
    • "debug"
    • "seeking"
    • "conceptual"
    • "other"

数据集用途

主要用于编程相关任务的语言模型训练。

数据集来源

数据集中的问题来自stackoverflow_python数据集的一个子集。

数据集注释

使用argilla平台SetFit模型进行注释。

数据集大小

  • 总大小:3445813字节
  • 下载大小:0字节
  • 样本数量:3463(训练集+测试集)

数据集许可证

  • cc
搜集汇总
数据集介绍
main_image_url
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作