five

CodeRepoQA|软件工程数据集|问答系统数据集

收藏
arXiv2024-12-19 更新2024-12-21 收录
软件工程
问答系统
下载链接:
https://github.com/kinesiatricssxilm14/CodeRepoQA
下载链接
链接失效反馈
资源简介:
CodeRepoQA是一个大规模的软件工程问答基准数据集,由哈尔滨工业大学深圳和字节跳动联合创建。该数据集包含585,687条多轮对话,涵盖五种编程语言,主要从GitHub的30个知名代码仓库中爬取并筛选得到。数据集的创建过程包括数据爬取和过滤,确保数据的相关性和质量。CodeRepoQA旨在评估语言模型在软件工程领域的问答能力,特别是多轮对话场景下的表现,帮助解决实际软件开发中的复杂问题。
提供机构:
哈尔滨工业大学深圳
创建时间:
2024-12-19
AI搜集汇总
数据集介绍
main_image_url
构建方式
CodeRepoQA数据集的构建过程分为两个主要步骤:首先,从GitHub上爬取了30个知名仓库的元数据,涵盖了Python、Java、JavaScript、TypeScript和Go五种编程语言,确保了数据的多样性和广泛性。其次,通过严格的数据过滤流程,包括字符数筛选、去重、外部链接过滤、事件计数限制以及机器人检测等,确保了数据的高质量和相关性。最终,数据集包含了585,687个多轮对话条目,平均每条对话有6.62轮,覆盖了多种软件工程场景。
使用方法
CodeRepoQA数据集可用于评估和训练大型语言模型在软件工程领域的问答能力。研究者可以通过该数据集对模型进行多轮对话的测试,评估其在不同编程语言和复杂场景下的表现。数据集提供了丰富的上下文信息,包括仓库信息、问题标题、问题描述和开发者回复等,能够帮助模型更好地理解软件工程中的实际问题。此外,数据集还支持多种评估指标,如BLEU、ROUGE-L、ROUGE-1和编辑相似度,便于全面评估模型的性能。
背景与挑战
背景概述
随着大型语言模型(LLMs)在软件工程领域的广泛应用,研究人员逐渐关注其在代码库级别任务中的表现。CodeRepoQA数据集由哈尔滨工业大学和字节跳动的研究人员于2024年创建,旨在评估LLMs在软件工程问题回答中的能力。该数据集从GitHub的30个知名代码库中爬取了超过58万条多轮对话数据,涵盖五种编程语言,平均每条对话包含6.62轮交互。CodeRepoQA不仅提供了丰富的软件工程场景,还通过多轮对话的形式更真实地反映了开发者在实际工作中的交互模式,为评估LLMs在复杂软件工程任务中的表现提供了重要基准。
当前挑战
CodeRepoQA数据集的构建面临多重挑战。首先,从GitHub爬取的原始数据需要经过严格的筛选和清洗,以确保数据的质量和相关性。其次,多轮对话的复杂性使得模型在处理长上下文时面临性能瓶颈,尤其是在处理极短或极长的上下文时表现不佳。此外,现有的语言模型在软件工程领域的问答能力仍存在显著局限,尤其是在生成与实际开发者反馈高度一致的回答时表现欠佳。这些挑战不仅反映了数据集构建过程中的技术难题,也揭示了LLMs在实际软件工程应用中的性能瓶颈。
常用场景
经典使用场景
CodeRepoQA数据集的经典使用场景主要集中在软件工程领域的问答任务中,特别是在GitHub仓库级别的问答能力评估。该数据集通过从30个知名GitHub仓库中爬取的多轮对话数据,涵盖了五种编程语言,能够全面评估语言模型在处理复杂软件工程问题时的表现。其多轮对话的设计使得模型能够模拟开发者在实际软件开发过程中通过多次交互解决问题的场景,从而更真实地反映模型的实际应用能力。
解决学术问题
CodeRepoQA数据集解决了现有问答基准在软件工程领域中的局限性,特别是单轮对话无法捕捉多轮交互的问题。通过引入多轮对话机制,该数据集能够更准确地评估语言模型在复杂软件工程任务中的表现,揭示了现有模型在处理多轮对话时的不足。此外,CodeRepoQA还为研究者提供了一个大规模、多样化的基准,帮助他们更好地理解语言模型在软件工程领域的潜力与局限,推动相关技术的进一步发展。
实际应用
CodeRepoQA数据集在实际应用中具有广泛的前景,特别是在开发辅助工具和代码审查系统中。通过模拟开发者在GitHub仓库中的多轮对话,该数据集可以帮助开发出更智能的代码助手,能够理解并回答开发者在编码过程中遇到的问题。此外,该数据集还可以用于训练和评估自动化代码修复工具,帮助开发者快速定位和解决代码中的问题,从而提高软件开发的效率和质量。
数据集最近研究
最新研究方向
在软件工程领域,CodeRepoQA数据集的最新研究方向主要集中在多轮对话式问答系统的构建与评估。该数据集通过从GitHub的30个知名代码库中爬取数据,构建了一个包含585,687条多轮对话的基准,涵盖了五种主流编程语言。研究者们通过对比现有问答基准,发现CodeRepoQA在多轮对话和代码库级别的问答任务中具有显著优势。实验结果表明,尽管大型语言模型(LLMs)在软件工程问答任务中表现出一定的潜力,但在处理复杂的多轮对话时仍存在局限性,尤其是长上下文和短上下文的表现均不如中等长度的上下文。这一发现为未来优化LLMs在软件工程领域的应用提供了重要方向,尤其是在提升模型在多轮对话中的表现和适应性方面。
相关研究论文
  • 1
    CodeRepoQA: A Large-scale Benchmark for Software Engineering Question Answering哈尔滨工业大学深圳 · 2024年
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

LinkedIn Salary Insights Dataset

LinkedIn Salary Insights Dataset 提供了全球范围内的薪资数据,包括不同职位、行业、地理位置和经验水平的薪资信息。该数据集旨在帮助用户了解薪资趋势和市场行情,支持职业规划和薪资谈判。

www.linkedin.com 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源,是提供人类基本需求和基本社会保障的先决条件;也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础,兼具学术、经济、社会等多种价值。 本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分(含胆固醇)数据,657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心 收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MECCANO

MECCANO数据集是首个专注于工业类似环境中第一人称视角下人类-物体交互的研究数据集。该数据集由20名参与者在模拟工业场景中构建摩托车玩具模型的视频组成,包含299,376帧视频数据。数据集不仅标注了时间上的动作片段,还标注了空间上的活跃物体边界框,涵盖了12种动词、20种名词和61种独特动作的分类。MECCANO数据集旨在推动工业环境中第一人称视角下人类动作识别、活跃物体检测、活跃物体识别及第一人称视角下人类-物体交互检测等任务的研究。

arXiv 收录

Pet Disease images

Comprehensive Image Dataset for Detecting Pet Diseases Across Multiple Species

kaggle 收录