koutch/staqc
收藏Hugging Face2023-03-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/koutch/staqc
下载链接
链接失效反馈官方服务:
资源简介:
StaQC(Stack Overflow问题-代码对)是一个包含约148K Python和120K SQL领域问题-代码对的大型数据集,这些对是通过Bi-View Hierarchical Neural Network从Stack Overflow自动挖掘的。数据集分为三个部分:多代码答案帖子、单代码答案帖子和手动注释的多代码答案帖子。每个部分都有对应的配置,可以通过特定的编程语言(Python或SQL)来访问。数据集主要用于自然语言到代码生成的任务。
StaQC(Stack Overflow问题-代码对)是一个包含约148K Python和120K SQL领域问题-代码对的大型数据集,这些对是通过Bi-View Hierarchical Neural Network从Stack Overflow自动挖掘的。数据集分为三个部分:多代码答案帖子、单代码答案帖子和手动注释的多代码答案帖子。每个部分都有对应的配置,可以通过特定的编程语言(Python或SQL)来访问。数据集主要用于自然语言到代码生成的任务。
提供机构:
koutch
原始信息汇总
数据集概述
数据集名称
- StaQC (Stack Overflow Question-Code pairs)
数据集内容
- Python和SQL领域的问题-代码对:约148K Python和120K SQL问题-代码对。
- 数据来源:自动从Stack Overflow挖掘,包括多代码答案帖子、单代码答案帖子及手动标注的多代码答案帖子。
数据集配置
- 配置名称:包括mca_python, mca_sql, sca_python, sca_sql, man_python, man_sql。
- 特征:每个配置包含id, question_id, question, snippet等特征。
- 数据分割:每个配置仅包含训练集。
数据集大小
- 训练集大小:
- mca_python: 40391个例子,23286786字节
- mca_sql: 26052个例子,15164206字节
- sca_python: 85294个例子,39678168字节
- sca_sql: 75637个例子,28656467字节
- man_python: 2052个例子,1445103字节
- man_sql: 1587个例子,1123721字节
数据集使用
- 任务:适用于自然语言到代码生成任务。
- 语言:Python, SQL, English。
许可证
- 许可证类型:Creative Commons Attribution 4.0 International License。



