language-decoded-data
收藏Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/legesher/language-decoded-data
下载链接
链接失效反馈官方服务:
资源简介:
Language Decoded Data 是一个多语言Python代码数据集,旨在研究代码对语言模型推理能力的提升是依赖于语言还是结构。数据集包含四种配置:原始英文代码和三种关键词替换的变体(中文、西班牙语、乌尔都语)。数据来源于bigcode/the-stack-dedup的Python子集,经过严格筛选,包括AST有效的Python代码、宽松许可证、10-1000行代码、至少21个GitHub星标、非自动生成文件以及SHA-256去重。关键词替换使用Legesher v0.7.3工具完成,保留了代码结构和语义。数据集适用于文本生成任务,特别是多语言代码理解和推理研究。
创建时间:
2026-03-13



