openhands-feedback

Hugging Face2024-12-14 更新2024-12-15 收录

下载链接：

https://huggingface.co/datasets/all-hands/openhands-feedback

下载链接

链接失效反馈

官方服务：

资源简介：

OpenHands Feedback Dataset是一个用户与OpenHands AI编码助手交互和反馈的集合。该数据集包含用户与AI编码助手交互的真实示例，包括成功和失败的交互，以及用户对响应质量和帮助性的反馈。数据集目前包含275个用户交互示例（60%为正面反馈，40%为负面反馈），总大小约为310MB。每个示例包括用户与助手之间的完整交互轨迹、用户的反馈以及交互的元数据。数据由All Hands AI收集和存储，该公司由OpenHands维护者创立，旨在支持和改进OpenHands。数据集以Parquet格式提供，包含版本、反馈、权限、时间戳和轨迹等字段。该数据集旨在用于改进AI编码助手、研究人机交互模式、分析代码生成中的常见故障模式以及开发更好的评估指标。数据集在发布前经过质量控制，并遵循MIT许可证。

创建时间：

2024-12-06

原始信息汇总

OpenHands Feedback Dataset

数据集描述

什么是 OpenHands Feedback？

OpenHands Feedback Dataset 是一个用户与 OpenHands AI 编码助手交互和反馈的集合。该数据集包含用户与 AI 编码助手交互的真实示例，包括成功和失败的交互，以及用户对响应质量和帮助性的反馈。

数据集目前包含 275 个用户交互示例（60% 正面反馈和 40% 负面反馈），总大小约为 310MB。每个示例包括用户与助手之间的完整交互轨迹，以及用户的反馈和交互的元数据。

数据收集者

数据由 All Hands AI 收集和存储，该公司由 OpenHands 维护者创立，旨在支持和改进 OpenHands。用户通过 OpenHands 界面（通过点赞/点踩按钮）提供反馈时，可以选择公开或私下提交反馈。

数据收集过程

用户可以通过以下方式在 OpenHands 交互过程中提供反馈：

点击点赞或点踩按钮
提供电子邮件地址（可选，用于潜在的后续问题）
选择是否公开他们的反馈

数据结构

数据集以 Parquet 格式提供，包含以下字段：

version: 标识反馈格式的字符串
feedback: 用户反馈文本
permissions: 指示反馈是公开还是私有的字段
timestamp: 反馈提交的时间
trajectory: 包含交互步骤的列表，包含：
- content: 消息内容
- extras: 附加元数据
- id: 消息标识符
- message: 实际消息文本
- observation: 系统观察
- source: 消息来源（用户/助手）
- timestamp: 消息发送的时间

使用和限制

预期用途

该数据集旨在用于：

改进 AI 编码助手
研究人机交互模式
分析代码生成中的常见故障模式
开发更好的编码助手评估指标

隐私和伦理

仅包含公开共享的反馈
已删除个人信息和电子邮件地址
已审查数据以删除任何敏感信息
在发布前，贡献公开反馈的用户有机会选择退出

数据集创建

数据质量

数据集在发布前进行质量控制：

删除低质量反馈
删除提交者电子邮件地址
审查敏感信息
验证数据格式和完整性

更新

数据集将定期更新，以包含新的公开反馈并进行处理。更新将遵循相同的质量控制和隐私保护流程。

附加信息

许可证

该数据集在 MIT 许可证下发布，与 OpenHands 本身的许可证相同。

引用

如果您在研究中使用此数据集，请引用：

bibtex @misc{openhands-feedback, title={OpenHands Feedback Dataset}, author={All Hands AI}, year={2024}, howpublished={url{https://huggingface.co/datasets/all-hands/openhands-feedback}} }

反馈和支持

如有问题、疑虑或请求删除数据：

联系：contact@all-hands.dev
GitHub: OpenHands Repository

请求删除特定数据：

对于单个条目：使用提交时提供的链接和密码
对于所有数据：从提交时使用的电子邮件地址联系 contact@all-hands.dev

搜集汇总

数据集介绍

构建方式

OpenHands Feedback Dataset的构建基于用户与OpenHands AI编程助手之间的真实交互数据，涵盖了成功与不成功的交互案例，并附带用户对响应质量的反馈。数据集由All Hands AI公司收集和存储，用户通过OpenHands界面提供的点赞或点踩按钮提交反馈，并可选择公开或私密分享。数据经过质量控制，包括低质量反馈的移除、个人信息和电子邮件地址的删除，以及敏感信息的审查，确保数据格式和完整性。

使用方法

OpenHands Feedback Dataset适用于多种研究目的，包括改进AI编程助手、研究人机交互模式、分析代码生成中的常见失败模式，以及开发更有效的评估指标。用户可以通过HuggingFace平台下载该数据集，并根据需要进行数据处理和分析。在使用过程中，需注意数据隐私和伦理问题，确保仅使用公开分享的反馈数据，并遵守MIT许可证的相关规定。

背景与挑战

背景概述

OpenHands Feedback Dataset是由All Hands AI公司收集并发布的一个专注于用户与AI编程助手交互反馈的数据集。该数据集的核心研究问题在于通过收集用户与OpenHands AI编程助手的真实交互数据，分析用户对AI助手响应的反馈，从而改进AI编程助手的性能。数据集包含了275个用户交互样本，涵盖了成功与不成功的交互案例，以及用户对响应质量的反馈。该数据集的创建旨在支持AI编程助手的改进、研究人机交互模式以及分析代码生成中的常见失败模式。通过这些数据，研究人员可以开发更有效的评估指标，推动AI编程助手领域的进一步发展。

当前挑战

OpenHands Feedback Dataset在构建过程中面临多项挑战。首先，数据集的隐私和伦理问题尤为重要，所有公开反馈都经过严格审查，确保不包含敏感信息或个人隐私。其次，数据质量的控制也是一个关键挑战，包括删除低质量反馈、验证数据格式和完整性等。此外，如何从用户反馈中提取有价值的信息，用于改进AI编程助手的性能，也是一个重要的研究难题。最后，随着数据集的定期更新，如何保持数据的一致性和质量，同时确保用户隐私和伦理标准，也是持续面临的挑战。

常用场景

经典使用场景

OpenHands Feedback数据集的经典使用场景主要集中在改进AI编码助手的性能和用户体验。通过分析用户与AI助手之间的交互轨迹，研究者可以识别出常见的错误模式和用户反馈，从而优化代码生成算法和交互设计。此外，该数据集还可用于开发新的评估指标，以更准确地衡量AI编码助手的有效性和用户满意度。

解决学术问题

该数据集解决了在AI编码助手领域中常见的学术研究问题，如人机交互模式分析、代码生成失败模式的识别以及评估指标的开发。通过提供真实的用户反馈和交互数据，研究者能够深入理解用户需求和行为，进而推动AI编码助手技术的进步。这不仅有助于提升AI助手的实用性，还为相关领域的研究提供了宝贵的实证数据。

实际应用

在实际应用中，OpenHands Feedback数据集被广泛用于优化AI编码助手的功能和性能。例如，开发者可以利用该数据集改进代码生成算法，减少错误并提高生成代码的质量。此外，企业还可以通过分析用户反馈，定制化AI助手的响应策略，以更好地满足特定用户群体的需求。这些应用不仅提升了用户体验，还增强了AI助手在实际工作场景中的应用价值。

数据集最近研究