five

language-decoded-data

收藏
Hugging Face2026-03-20 更新2026-03-21 收录
下载链接:
https://huggingface.co/datasets/legesher/language-decoded-data
下载链接
链接失效反馈
官方服务:
资源简介:
Language Decoded Data 是一个多语言Python代码数据集,旨在研究代码对语言模型推理能力的提升是依赖于语言还是结构。数据集包含四种配置:原始英文代码和三种关键词替换的变体(中文、西班牙语、乌尔都语)。数据来源于bigcode/the-stack-dedup的Python子集,经过严格筛选,包括AST有效的Python代码、宽松许可证、10-1000行代码、至少21个GitHub星标、非自动生成文件以及SHA-256去重。关键词替换使用Legesher v0.7.3工具完成,保留了代码结构和语义。数据集适用于文本生成任务,特别是多语言代码理解和推理研究。
创建时间:
2026-03-13
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作