neulab/tldr
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/neulab/tldr
下载链接
链接失效反馈官方服务:
资源简介:
DocPrompting-CoNaLa数据集是一个用于代码生成任务的数据集,特别是从自然语言到Bash命令的生成。该数据集来源于`tldr`项目的英文子集,并通过Bash命令进行分割。数据集包含训练集、测试集和验证集,每个集都包含自然语言意图、参考代码片段、问题ID等字段。此外,数据集还包含一个文档部分,用于存储与代码片段相关的文档内容。数据集的结构和字段在README中有详细描述,并提供了相关的引用信息。
DocPrompting-CoNaLa is a dataset tailored for code generation tasks, specifically natural language to Bash command generation. Derived from the English subset of the `tldr` project, the dataset is segmented via Bash commands. It includes training, test, and validation splits, each containing fields such as natural language intent, reference code snippets, and question IDs. Additionally, the dataset features a dedicated documentation section for storing content associated with the code snippets. The dataset's structure and fields are fully detailed in the accompanying README, with relevant citation information provided alongside.
提供机构:
neulab
原始信息汇总
数据集概述
- 名称: DocPrompting-CoNaLa
- 语言: 英语 - Bash
- 许可证: MIT
- 多语言性: 单语种
- 任务类别: 文本到文本生成
- 来源: 原始数据集
- 标签: 代码生成, 文档检索, 增强生成检索
数据集结构
- 训练集: 6414条记录
- 测试集: 928条记录
- 验证集: 1845条记录
- 文档集: 439064条记录
数据字段
-
训练/验证/测试集:
- nl: 自然语言意图
- cmd: 参考代码片段
- question_id: 问题唯一ID
- oracle_man: 参考代码片段中使用的函数
doc_id - cmd_name: 此代码片段的bash命令
- tldr_cmd_name: tldr GitHub仓库中使用的bash命令
- manual_exist: 是否在https://manned.org存在手册
- matching_info: 每个代码片段的多个标记,这是每个标记的详细参考文档匹配
-
文档集:
- doc_id: 文档ID
- doc_content: 文档内容
数据集创建
- 来源: 从
tldr精选 - 目的: 提供bash命令的频繁使用和自然语言意图
引用信息
@article{zhou2022doccoder, title={DocCoder: Generating Code by Retrieving and Reading Docs}, author={Zhou, Shuyan and Alon, Uri and Xu, Frank F and Jiang, Zhengbao and Neubig, Graham}, journal={arXiv preprint arXiv:2207.05987}, year={2022} }



