five

CodeIF|代码生成数据集|自然语言处理数据集

收藏
arXiv2025-02-26 更新2025-02-28 收录
代码生成
自然语言处理
下载链接:
https://github.com/lin-rany/codeIF
下载链接
链接失效反馈
资源简介:
CodeIF是由北京航空航天大学、清华大学和新加坡国立大学的研究人员共同创建的一个代码生成任务评估基准。该数据集包含1200个代码生成任务,任务涵盖Java、Python、Go和C++四种编程语言,分为简单和困难两个难度级别。数据集通过收集和细化真实代码生成任务中的约束指令构建而成,旨在评估大型语言模型遵循任务导向指令的能力,涵盖函数合成、错误调试、算法重构和代码解释等多种任务类型。
提供机构:
北京航空航天大学, 清华大学, 新加坡国立大学
创建时间:
2025-02-26
AI搜集汇总
数据集介绍
main_image_url
构建方式
CodeIF数据集的构建首先从现有的代码生成任务中收集和提炼约束指令,然后结合代码生成任务和大型语言模型(LLMs)以及人工审核来创建高质量的评估数据集。数据集分为两个主要阶段:收集约束指令和数据加工。约束指令收集阶段包括两个步骤:收集和验证约束指令以及将它们应用于数据集生成。数据加工阶段则包括多语言和难度差异化基准设计,以及自动生成约束指令。此外,数据集还构建了指令依赖关系,以提高评估深度和准确性。
使用方法
CodeIF数据集的使用方法主要包括:1. 评估LLMs在代码生成任务中的指令遵循能力;2. 通过50个细粒度的子指令评估模型性能,提供对模型优势和劣势的细致了解;3. 使用四个新颖的评价指标(CSR、SSR、RSR、CCSR)来评估模型处理多约束问题的能力;4. 进行广泛的评估和分析,包括35种最先进的LLMs,涵盖多种编程语言和难度级别。
背景与挑战
背景概述
随着大型语言模型(LLMs)的快速进步,代码生成任务中对稳健的指令遵循能力的需求日益增长。CodeIF是首个专门设计用于评估LLMs在代码生成场景中遵循任务导向指令能力的基准。该数据集涵盖了广泛的任务,包括函数合成、错误调试、算法重构和代码解释,从而提供了一个全面的评估模型性能的套件,涵盖了不同复杂性和编程领域的任务。CodeIF由北京航空航天大学、清华大学和新加坡国立大学的研究人员创建,旨在推动LLMs在代码生成任务中的发展,并对相关领域产生了深远的影响。
当前挑战
CodeIF数据集面临的挑战主要包括:1) LLMs在理解和执行复杂指令方面的能力有限;2) 构建过程中需要确保数据的多样性和综合性,以及评估的准确性和实用性;3) 设计和实施有效的评估指标,以全面评估LLMs在代码生成任务中的表现。
常用场景
经典使用场景
在大型语言模型(LLMs)的快速进步推动下,自动化代码生成领域正经历着深刻的变革。为了推动这一领域的发展,一个全面而系统的评估框架是必不可少的。CodeIF 数据集旨在评估 LLMs 在代码生成任务中的指令遵循能力,涵盖了从函数合成到错误调试、算法重构和代码解释等一系列任务。它提供了一个全面的评估套件,以评估模型在不同复杂性和编程领域中的性能。通过使用 CodeIF 数据集,研究人员和开发者可以系统地评估 LLMs 在不同编程语言中的指令遵循能力,并深入了解它们的优势和局限性。
解决学术问题
CodeIF 数据集解决了大型语言模型在代码生成任务中理解并执行复杂指令的挑战。它通过提供一个全面的评估框架,包括八个主要类型的任务和 50 个细粒度的子指令,来评估 LLMs 的指令遵循能力。此外,CodeIF 还提出了四个新颖的评估指标:完全满意度率(CSR)、软满意度率(SSR)、严格满意度率(RSR)和一致性连续满意度率(CCSR),以从不同角度评估模型处理多约束问题的能力。这些指标为未来的研究提供了新的基准,并为提高 LLMs 在自动化代码生成中的适应性和可靠性提供了方向。
实际应用
CodeIF 数据集在实际应用中具有广泛的应用前景。它可以帮助开发人员评估和选择最适合他们需求的 LLMs,以提高代码生成的质量和效率。此外,CodeIF 还可以帮助开发人员识别和改进 LLMs 在代码生成中的局限性和弱点,从而推动 LLMs 在自动化代码生成领域的进一步发展。CodeIF 数据集还可以用于训练和优化 LLMs,以提高它们在代码生成中的性能和可靠性。
数据集最近研究
最新研究方向
随着大型语言模型(LLMs)的快速发展,代码生成任务中对稳健指令遵循能力的需求显著增长。CodeIF数据集作为首个专门设计用于评估LLMs在代码生成场景中遵循任务导向指令能力的基准,涵盖了函数合成、错误调试、算法重构和代码解释等广泛任务,为评估模型在不同复杂性和编程领域的表现提供了全面工具。CodeIF不仅系统地评估了现有LLMs在遵循人类指令、生成一致、可维护和上下文相关的代码方面的能力,还为未来研究提供了方向,旨在增强LLMs在自动化代码生成中的适应性、可靠性和整体有效性。
相关研究论文
  • 1
    CodeIF: Benchmarking the Instruction-Following Capabilities of Large Language Models for Code Generation北京航空航天大学, 清华大学, 新加坡国立大学 · 2025年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息,包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录

jpft/danbooru2023

Danbooru2023是一个大规模的动漫图像数据集,包含超过500万张由爱好者社区贡献并详细标注的图像。图像标签涵盖角色、场景、版权、艺术家等方面,平均每张图像有30个标签。该数据集可用于训练图像分类、多标签标注、角色检测、生成模型等多种计算机视觉任务。数据集基于danbooru2021构建,扩展至包含ID #6,857,737的图像,增加了超过180万张新图像,总大小约为8TB。图像以原始格式提供,分为1000个子目录,使用图像ID的模1000进行分桶,以避免文件系统性能问题。

hugging_face 收录

TCIA

TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。

www.cancerimagingarchive.net 收录