five

hsseinmz/realhumaneval

收藏
Hugging Face2024-06-11 更新2024-06-15 收录
下载链接:
https://hf-mirror.com/datasets/hsseinmz/realhumaneval
下载链接
链接失效反馈
官方服务:
资源简介:
RealHumanEval数据集包含了RealHumanEval研究中参与者的日志数据,该研究旨在测量不同LLMs在支持程序员完成任务时的能力。研究开发了一个在线网页应用,用户可以通过自动完成支持(类似于GitHub Copilot)或聊天支持(类似于ChatGPT)与六种不同的LLMs进行交互。数据集包括四个部分:聊天日志、自动完成日志、任务数据和参与者研究数据。聊天日志包含775条参与者与LLMs的对话记录,自动完成日志记录了5207条自动完成建议的接受情况和LLM的提示,任务数据包含17个参与者被要求完成的任务,研究数据则包含了213名参与者的处理信息(如完成的任务数量、代码历史、接受的建议数量等)。数据收集通过在线平台进行,参与者来自大学邮件列表和社交媒体,经过筛选后最终有213名参与者。数据集预处理包括对交互数据的分类和统计信息的生成,同时确保不泄露参与者个人信息。
提供机构:
hsseinmz
原始信息汇总

RealHumanEval 数据集概述

数据集详情

动机

RealHumanEval 研究旨在评估不同大型语言模型(LLMs)在支持程序员任务方面的能力。通过一个在线网络应用程序,用户与六种不同的 LLMs 交互,这些模型通过自动完成支持(类似于 GitHub Copilot)或聊天支持(类似于 ChatGPT)集成到编辑器中。研究测量了用户在任务完成速度和数量以及对 LLM 帮助性的满意度方面的表现。

数据集来源

  • 创建者: Hussein Mozannar, Valerie Chen, Mohammed Alsobay, Subhro Das, Sebastian Zhao, Dennis Wei, Manish Nagireddy, Prasanna Sattigeri, Ameet Talwalkar, David Sontag
  • 资助方: MIT-IBM Watson AI Lab
  • 语言: 英语
  • 许可证: CC

数据集组成

数据集包含四个部分:

  • chat (chat_data.csv): 包含 775 条用户与 LLMs 的聊天记录。
  • autocomplete (autocomplete_data.csv): 记录了 5207 条自动完成建议及其接受情况和 LLM 的提示。
  • tasks (task_data.csv): 记录了 17 个用户被要求完成的任务。
  • study (study_data.csv): 包含 213 名参与者的处理信息,如完成的任务数量、代码历史、接受的建议数量等。

数据收集过程

通过 RealHumanEval 平台进行用户研究,评估 LLM 协助对程序员表现的影响以及人类偏好指标与程序员生产力指标的相关性。研究招募了 229 名参与者,最终筛选出 213 名有效参与者。

数据预处理

数据集预处理包括将参与者与自动完成和聊天的交互分开,并为每种交互形式创建额外的列以提供汇总统计(如接受率或复制率)。作者仔细检查了数据集,以确保不会泄露参与者的个人信息。

偏差、风险和限制

研究限制包括 17 个编码任务可能无法涵盖专业程序员可能遇到的所有任务类型,以及任务的短持续时间可能无法提供与长期任务相同的清晰信号。此外,研究未考虑 LLMs 可能生成有害或不安全代码的安全问题。

数据集卡片联系

联系人:Hussein Mozannar (hssein.mzannar@gmail.com) 和 Valerie Chen (valeriechen@cmu.edu)。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作