five

RACE

收藏
arXiv2017-12-06 更新2024-06-21 收录
下载链接:
http://www.cs.cmu.edu/~glai1/data/race/
下载链接
链接失效反馈
官方服务:
资源简介:
RACE是一个大规模阅读理解数据集,由卡内基梅隆大学语言技术研究所创建。数据集包含27,933篇文章和97,687个问题,这些问题是从中国中学生和高中生的英语考试中收集的,由英语教师设计,涵盖广泛的主题和风格。数据集的创建旨在通过专家设计的问题来评估学生的阅读理解能力,特别是推理能力。RACE的应用领域包括机器阅读理解的研究和评估,旨在解决现有数据集在推理需求和主题覆盖上的不足。

RACE is a large-scale reading comprehension dataset developed by the Language Technologies Institute of Carnegie Mellon University. It comprises 27,933 articles and 97,687 questions collected from English examinations administered to Chinese middle and high school students. These questions are crafted by English teachers and cover a diverse array of topics and writing styles. The dataset was created to assess students' reading comprehension abilities, particularly their reasoning capabilities, using expert-designed questions. Applications of RACE span research and evaluation of machine reading comprehension, aiming to address the shortcomings of existing datasets in terms of reasoning requirements and topic coverage.
提供机构:
语言技术研究所
创建时间:
2017-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
RACE数据集的构建基于对大型语言模型(LLMs)生成代码质量的多维度评估需求。该数据集综合评估了代码的四个维度:可读性、可维护性、正确性和效率。为了量化这些难以直接衡量的维度,研究团队参考了多种质量模型,并总结了每个维度的多个代表性因素。此外,考虑到不同应用场景对代码生成有不同的需求,RACE设计了多种用户需求类型,并将这些需求整合到任务描述中,要求模型生成既正确又符合特定需求的代码。
使用方法
使用RACE数据集时,研究人员和开发者可以通过提供的评估框架和指标,对不同的大型语言模型生成的代码进行全面评估。具体方法包括:首先,根据任务描述生成代码;其次,使用静态分析和运行时监控技术,对生成的代码进行多维度的评估;最后,根据评估结果,分析模型在不同维度上的表现,从而指导模型的改进和优化。RACE数据集还提供了详细的实验结果和分析,帮助用户更好地理解和应用该基准。
背景与挑战
背景概述
近年来,大型语言模型(LLMs)在代码生成方面的能力引起了广泛关注。尽管已有许多基准测试用于评估LLMs生成的代码的正确性,但这些基准主要集中在代码的正确性上,而忽略了其他影响代码质量的关键维度。因此,郑家胜等人于2024年提出了RACE基准,该基准从可读性、可维护性、正确性和效率四个维度全面评估LLMs生成的代码质量。RACE基准的提出填补了现有基准在多维度代码质量评估方面的空白,为研究人员提供了更全面的评估工具,有助于推动LLMs在代码生成领域的进一步发展。
当前挑战
RACE基准的构建过程中面临多个挑战。首先,设计一个可量化的多维度评估框架是困难的,尤其是对于非正确性的维度,如可读性和可维护性,难以用单一指标量化。其次,这些维度具有需求依赖性,不同应用场景对代码生成有不同的要求,无法使用固定统一的标准来衡量。此外,计算评估指标也是一个挑战,对于非正确性的维度,不能直接使用测试用例的通过率作为性能衡量指标。这些挑战要求研究人员在设计RACE基准时,不仅要考虑多维度的评估,还要确保评估框架的灵活性和适应性,以满足不同用户和场景的需求。
常用场景
经典使用场景
RACE数据集的经典使用场景在于评估大型语言模型(LLMs)在代码生成方面的多维度能力。通过设计多种用户需求,RACE能够全面评估模型生成的代码在可读性、可维护性、正确性和效率方面的表现。这种多维度的评估框架使得研究人员能够更准确地衡量和比较不同模型在代码生成任务中的表现,从而为模型改进提供有价值的指导。
解决学术问题
RACE数据集解决了现有基准主要关注代码生成正确性而忽视其他关键维度的学术问题。通过引入可读性、可维护性和效率等维度,RACE填补了现有评估框架的空白,使得研究人员能够更全面地理解当前LLMs在代码生成方面的能力。这不仅有助于识别真正高质量的代码,还为未来的模型优化提供了明确的方向。
实际应用
在实际应用中,RACE数据集能够帮助开发者在选择和使用LLMs时做出更明智的决策。通过评估模型在多个维度上的表现,开发者可以更准确地判断模型是否能够满足特定项目的需求,从而提高软件开发的效率和质量。此外,RACE还可以用于培训和教育领域,帮助学生和开发者理解高质量代码的标准和要求。
数据集最近研究
最新研究方向
在软件开发领域,大型语言模型(LLMs)的代码生成能力日益受到关注。然而,现有的基准测试主要集中在代码的正确性上,而忽略了其他影响代码质量的关键维度,如可读性、可维护性和效率。因此,本文提出了RACE基准,该基准从可读性、可维护性、正确性和效率四个维度全面评估LLMs生成的代码质量。具体而言,考虑到正确性之外的维度具有需求依赖性,我们为每个维度设计了多种类型的用户需求,以评估模型生成符合用户需求的正确代码的能力。通过对18个代表性LLMs的评估,我们发现当前LLMs在生成高质量代码方面仍未达到软件开发的要求,特别是在可读性方面,它成为生成代码整体质量的关键指标。此外,大多数LLMs表现出对特定编码风格的固有偏好,这为未来模型的改进提供了方向。
相关研究论文
  • 1
    Beyond Correctness: Benchmarking Multi-dimensional Code Generation for Large Language Models中国信息处理实验室 · 2024年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作