HumanEvalComm
收藏arXiv2024-06-01 更新2024-06-21 收录
下载链接:
https://github.com/jie-jw-wu/human-eval-comm
下载链接
链接失效反馈官方服务:
资源简介:
HumanEvalComm是由不列颠哥伦比亚大学创建的数据集,包含164个手工修改的Python编程问题,旨在评估大型语言模型(LLMs)在代码生成任务中的沟通能力。数据集通过引入模糊性、不一致性和不完整性等要求工程概念,促使模型在生成代码前提出澄清问题。创建过程涉及手动修改原始问题描述,确保每个问题都能触发澄清问题,以提高代码生成的准确性。该数据集主要应用于评估和提升LLMs在软件工程领域的沟通技能,特别是在处理复杂或不明确的需求时。
提供机构:
不列颠哥伦比亚大学
创建时间:
2024-06-01



