five

koutch/staqc

收藏
Hugging Face2023-03-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/staqc
下载链接
链接失效反馈
官方服务:
资源简介:
StaQC(Stack Overflow问题-代码对)是一个包含约148K Python和120K SQL领域问题-代码对的大型数据集,这些对是通过Bi-View Hierarchical Neural Network从Stack Overflow自动挖掘的。数据集分为三个部分:多代码答案帖子、单代码答案帖子和手动注释的多代码答案帖子。每个部分都有对应的配置,可以通过特定的编程语言(Python或SQL)来访问。数据集主要用于自然语言到代码生成的任务。

StaQC(Stack Overflow问题-代码对)是一个包含约148K Python和120K SQL领域问题-代码对的大型数据集,这些对是通过Bi-View Hierarchical Neural Network从Stack Overflow自动挖掘的。数据集分为三个部分:多代码答案帖子、单代码答案帖子和手动注释的多代码答案帖子。每个部分都有对应的配置,可以通过特定的编程语言(Python或SQL)来访问。数据集主要用于自然语言到代码生成的任务。
提供机构:
koutch
原始信息汇总

数据集概述

数据集名称

  • StaQC (Stack Overflow Question-Code pairs)

数据集内容

  • Python和SQL领域的问题-代码对:约148K Python和120K SQL问题-代码对。
  • 数据来源:自动从Stack Overflow挖掘,包括多代码答案帖子、单代码答案帖子及手动标注的多代码答案帖子。

数据集配置

  • 配置名称:包括mca_python, mca_sql, sca_python, sca_sql, man_python, man_sql。
  • 特征:每个配置包含id, question_id, question, snippet等特征。
  • 数据分割:每个配置仅包含训练集。

数据集大小

  • 训练集大小
    • mca_python: 40391个例子,23286786字节
    • mca_sql: 26052个例子,15164206字节
    • sca_python: 85294个例子,39678168字节
    • sca_sql: 75637个例子,28656467字节
    • man_python: 2052个例子,1445103字节
    • man_sql: 1587个例子,1123721字节

数据集使用

  • 任务:适用于自然语言到代码生成任务。
  • 语言:Python, SQL, English。

许可证

  • 许可证类型:Creative Commons Attribution 4.0 International License。
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作