google-research-datasets/eth_py150_open
收藏数据集卡片 ethpy150open
数据集描述
数据集摘要
一个可重新分发的ETH Py150语料库子集,在ICML 2020论文Learning and Evaluating Contextual Embedding of Source Code中介绍。
支持的任务和排行榜
[更多信息需要]
语言
英语
数据集结构
数据实例
json { "filepath": "0rpc/zerorpc-python/setup.py", "license": "mit" }, { "filepath": "0rpc/zerorpc-python/zerorpc/heartbeat.py", "license": "mit" }
数据字段
filepath: 包含GitHub上文件路径的相对URLlicense: 特定文件或仓库使用的许可证
数据分割
| Train | Valid | Test | |
|---|---|---|---|
| 数据集分割 | 74749 | 8302 | 41457 |
数据集创建
策划理由
生成一个更可重新分发的数据集版本
源数据
初始数据收集和规范化
所有URL都是GitHub上相对于主分支的文件路径,使用当时可用的主分支
源语言生产者是谁?
[更多信息需要]
注释
注释过程
[更多信息需要]
谁是注释者?
[更多信息需要]
个人和敏感信息
[更多信息需要]
使用数据集的注意事项
数据集的社会影响
[更多信息需要]
偏见的讨论
[更多信息需要]
其他已知限制
[更多信息需要]
附加信息
数据集策展人
[更多信息需要]
许可信息
Apache License 2.0
引用信息
bibtex @inproceedings{kanade2020learning, title={Learning and Evaluating Contextual Embedding of Source Code}, author={Kanade, Aditya and Maniatis, Petros and Balakrishnan, Gogul and Shi, Kensen}, booktitle={International Conference on Machine Learning}, pages={5110--5121}, year={2020}, organization={PMLR} }
贡献
感谢@Bharat123rox添加此数据集。




