Code-to-Text Datasets
收藏数据集概述
数据集名称
Code-to-Text Datasets
数据集内容
- 主要数据:包含文本描述与源代码表示(主要是函数签名)的数据集,用于学习将文本描述转换为代码描述。
- 文件结构:
data/:包含ACL会议相关的数据。other_data/py27:包含EMNLP会议相关的数据。other_data/polyglot_data:用于即将发表的NAACL论文的数据。
文件详情
- 文件类型:
.e, .f:训练数据,包含额外数据和伪词典。_bow.{e,f}:训练数据,不包含额外数据。_pseudo.{e,f}:训练数据,包含伪词典。_valid.{e,f}:验证数据。_test.{e,f}:测试数据。rank_list.txt:输出表示的标记化版本。rank_list_orig.txt:原始输出表示,未经预处理。rank_list_class.txt:输出抽象类序列。rank_list_tree.txt:表示的语法信息。descriptions.txt:输出符号及其关联词。extra_pairs.txt:从API提取的额外数据。pseudolex.txt:输出符号映射到自身。grammar.txt:用于hiero解码的语法规则。hiero_rules.txt:从训练中提取的层次短语规则。phrase_table.txt:从训练中提取的短语规则。
数据使用注意事项
- 数据相对嘈杂,用户可能需要根据自己的需求对代码表示做出不同的决策。
引用信息
-
使用
polyglot_data时,请引用:@inproceedings{richardson-berant:2018, author = {Richardson, Kyle and Berant, Jonathan and Kuhn, Jonas}, title = {Polyglot {S}emantic {P}arsing in {API}s}, booktitle = {Proceedings of NAACL (to appear)}, year = {2018}, url={https://arxiv.org/abs/1803.06966}, }
-
使用其他资源时,请引用:
@inproceedings{richardson-kuhn:2017:Long, author = {Richardson, Kyle and Kuhn, Jonas}, title = {Learning {S}emantic {C}orrespondences in {T}echnical {D}ocumentation}, booktitle = {Proceedings of the ACL}, year = {2017}, url={http://aclweb.org/anthology/P/P17/P17-1148.pdf}, }
@inproceedings{richardson-kuhn:2017:Demo, author = {Richardson, Kyle and Kuhn, Jonas}, title = {Function {A}ssistant: {A} {T}ool for {NL} {Q}uerying of {API}s}, booktitle = {Proceedings of the EMNLP}, year = {2017}, }




