IndicEval-XL
收藏arXiv2025-02-26 更新2025-02-28 收录
下载链接:
https://github.com/telekom/IndicEval-XL
下载链接
链接失效反馈官方服务:
资源简介:
IndicEval-XL是一个涵盖6种主要印度语言的综合代码生成评估基准,这些语言的使用者占世界总人口的14%左右。该数据集由德国电信数字实验室创建,包含12种编程语言与7种自然语言(包括英语和6种印度语言)的对应问题 pairs,总共6720个编程问题。数据集旨在提高大型语言模型在多语言代码生成方面的评估标准,解决多语言环境下代码生成的问题,并为研究社区提供高质量、多样化的数据资源。
提供机构:
德国电信数字实验室
创建时间:
2025-02-26
搜集汇总
数据集介绍

构建方式
IndicEval-XL数据集的构建采用了一种综合性的方法,旨在弥合多语言代码生成领域的语言多样性差距。该数据集从HumanEval-XL数据集中提取了自然语言提示,并将其翻译成了12种编程语言。为了确保数据的质量,研究人员使用了BERTScore和CodeBERTScore等评估指标,并采用了包括反向翻译和BERTScore在内的多轮质量检查。最终,IndicEval-XL数据集包含了6种主要印度语言和英语,共计6,720个编程问题,涉及12种编程语言。
特点
IndicEval-XL数据集的主要特点包括语言多样性、数据质量和开放性。该数据集涵盖了6种主要印度语言和英语,为评估大型语言模型在多语言代码生成方面的能力提供了全面的基准。此外,通过使用BERTScore和CodeBERTScore等先进的评估指标,以及严格的质量检查流程,确保了数据集的高质量。最后,IndicEval-XL数据集是完全开放的,可供研究人员免费使用和重新分发。
使用方法
IndicEval-XL数据集的使用方法包括数据集的获取、代码生成任务的评估以及模型性能分析。研究人员可以通过访问数据集的GitHub仓库来获取数据集。然后,他们可以使用数据集中的自然语言提示和编程语言问题来评估代码生成模型的性能。此外,研究人员还可以使用CodeBERTScore等评估指标来分析模型的性能,并与其他模型进行比较。通过这些方法,研究人员可以深入了解不同模型在不同语言和编程语言上的表现,从而推动多语言代码生成领域的研究和发展。
背景与挑战
背景概述
随着大型语言模型(LLMs)在代码生成领域的显著进步,这些模型已成为下一代软件开发生命周期中的关键组成部分。然而,现有的多语言代码生成能力评估基准主要集中在大规模英语数据集上,这限制了它们在全球开发者社区中的应用。为了解决这一局限性,IndicEval-XL数据集应运而生,这是一个包含6种主要印度语言的综合基准,这些语言的总人口占全球人口的约14%。该数据集通过将12种编程语言与这些印度语言相结合,创建了一个强大的评估框架。IndicEval-XL的创建对于推动代码生成系统中的语言多样性和评估框架的发展具有重要意义。该数据集和评估基准的公开可用性旨在使支持多种语言的AI开发工具更具包容性和可访问性,从而惠及不同语言背景的开发者。
当前挑战
IndicEval-XL数据集面临的挑战主要包括:1)解决领域问题,即创建一个能够涵盖印度主要语言的多语言代码生成评估基准,以支持全球开发者社区的需求;2)构建过程中遇到的挑战,包括翻译质量和数据集构建的复杂性。在构建过程中,研究人员采用了多种翻译方法,如使用LLMs(如GPT-4)和专门训练的transformer模型(如IndicTrans2),并对翻译结果进行了严格的质量检查,以确保数据集的高质量。此外,为了适应不同语言的特点,研究人员还采用了不同的评估指标,如CodeBERTScore和BERTScore,并发现现有的评估框架(如pass@k)可能无法准确反映模型的真实性能,特别是在处理低资源语言(如梵语)时。因此,未来研究需要开发更先进的评估方法,并针对特定语言的语法和语义复杂性进行模型调优和训练数据集的扩充。
常用场景
经典使用场景
IndicEval-XL 数据集旨在为代码生成领域提供一个包含印度主要语言的全面基准。该数据集涵盖了 6 种主要印度语言,并融合了 12 种编程语言,为多语言代码生成能力的评估提供了强大的框架。这使得 IndicEval-XL 成为评估和比较大型语言模型在多语言环境中生成代码能力的宝贵资源。
衍生相关工作
IndicEval-XL 的发布衍生了多项相关研究工作,包括对多语言代码生成模型的性能评估、评估指标的改进以及多语言代码生成技术的进一步发展。这些相关工作有助于推动代码生成领域的多语言支持和包容性,为未来的研究和开发提供了有价值的资源。
数据集最近研究
最新研究方向
IndicEval-XL is at the forefront of research in multilingual code generation, particularly focusing on Indic languages. This benchmark dataset is designed to evaluate the capabilities of Large Language Models (LLMs) in generating code from natural language prompts across a diverse set of languages, including six major Indic languages. The research direction is centered around expanding the linguistic diversity in code generation systems, making AI-powered development tools more inclusive and accessible to developers with varying linguistic backgrounds. The dataset bridges 12 programming languages with these Indic languages, creating a robust evaluation framework that addresses the limitations of existing English-centric benchmarks. By focusing on less-resourced languages such as Sanskrit, the dataset aims to improve semantic alignment and ensure that multilingual models can generate accurate code in underrepresented languages. This research is significant in the context of India's substantial population and the crucial role Indic languages play in Indian society. The findings from IndicEval-XL contribute to the development of more sophisticated evaluation methodologies and improved generative AI technologies, fostering inclusive AI systems that maintain functional precision across a wide spectrum of syntactic constraints.
相关研究论文
- 1IndicEval-XL: Bridging Linguistic Diversity in Code Generation Across Indic Languages德国电信数字实验室 · 2025年
以上内容由遇见数据集搜集并总结生成



