ChatGPT-Gemini-Claude-Perplexity-Human-Evaluation-Multi-Aspects-Review-Dataset

Hugging Face2024-10-27 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/DeepNLP/ChatGPT-Gemini-Claude-Perplexity-Human-Evaluation-Multi-Aspects-Review-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集收集了四款主要AI助手和聊天机器人（ChatGPT、Gemini、Claude和Perplexity）的用户评价和评分，评分范围为1到5。用户可以对多个方面进行评分，并添加自定义标签，如推理时间、内容冗余等。数据来源于DeepNLP AI服务用户评价平台，由订阅用户和ML/AI社区成员撰写和验证。该数据集适用于LLM微调、人类偏好对齐、少样本学习和错误案例分析等任务。

This dataset collects user reviews and ratings for four major AI assistants and chatbots (ChatGPT, Gemini, Claude, and Perplexity), with ratings ranging from 1 to 5. Users can rate multiple aspects and add custom tags such as reasoning time and content redundancy. The data is sourced from the DeepNLP AI Service User Review Platform, written and verified by subscribed users and ML/AI community members. This dataset is applicable to tasks including LLM fine-tuning, human preference alignment, few-shot learning and error case analysis.

创建时间：

2024-10-27

原始信息汇总

ChatGPT Gemini Claude Perplexity Human Evaluation Multi Aspect Review Dataset

简介

该数据集收集了四款主要AI助手和聊天应用的用户评价数据，包括ChatGPT、Gemini、Claude和Perplexity。评价数据来自DeepNLP AI服务用户评价面板，用户通过该平台提供AI生成响应的截图和评价。评价内容包括总体评分和多个方面的评分，评分范围为1到5。

数据集列描述

列名	描述
user_id_encode	字符串，编码后的用户ID
pub_id	AI服务发布者ID，用于识别不同的模型或基础设施升级，例如pub-chatgpt-openai、pub-openai-o1
pub_name	AI服务发布者名称
category	用户提示的类别，例如生产力、科学、金融、医疗保健等
rating	数值评分，范围1-5
correctness	数值评分，范围1-5
helpfulness	数值评分，范围1-5
interesting	数值评分，范围1-5
detail_rating	JSON格式，详细标签和评分，例如{"inference_time": 3.5}
prompt	字符串，例如“你能证明黎曼假设或给出一些逐步的方向吗？”
content	字符串，用户详细内容
gmt_create	时间戳
use_case	字符串，例如“向OpenAI o1询问数学评论”
review_url	URL
pub_website	AI服务发布者网站

数据集分析

用户评价分析

通过分析不同AI服务的用户评价，计算总体评分和多个方面的平均评分。

特定用例分析

通过筛选特定用例（如数学能力、编码能力、医疗保健等）的用户评价，进一步分析AI服务在这些领域的性能。

数据来源

数据集来源于DeepNLP AI服务用户评价面板，用户通过该平台提供AI生成响应的截图和评价。

搜集汇总

数据集介绍

构建方式

该数据集通过DeepNLP AI服务用户评审面板收集，该平台是一个开放的评审网站，用户可以在其中对AI生成的内容进行评分并上传截图。评审由订阅邮箱用户以及来自机器学习和人工智能社区的用户撰写并验证。数据集涵盖了四个主要AI助手和聊天机器人应用的评审数据，包括ChatGPT、Gemini、Claude和Perplexity。用户不仅提供整体评分，还针对多个方面进行评分，并可以自定义他们关心的标签，如推理时间、内容冗余等。

特点

该数据集的特点在于其多维度的评分体系，用户不仅对AI服务的整体表现进行评分，还针对正确性、帮助性、趣味性等多个具体方面进行评分。此外，用户还可以自定义标签，进一步细化评审内容。数据集涵盖了多个AI助手和聊天机器人应用，提供了丰富的使用场景和用户反馈，为研究者和开发者提供了宝贵的参考数据。

使用方法

该数据集可用于多种机器学习任务，如LLM微调、人类偏好对齐、少样本学习等。通过分析用户对不同AI服务的评分和反馈，研究者可以优化模型的表现，提升用户体验。数据集中的多维度评分和自定义标签为模型优化提供了详细的指导，帮助开发者在特定领域进行针对性改进。此外，数据集还可用于构建配对评审分数，支持强化学习中的奖励模型训练。

背景与挑战

背景概述

随着大型语言模型（LLM）在多个领域的广泛应用，如何评估和优化这些模型的性能成为研究热点。ChatGPT-Gemini-Claude-Perplexity-Human-Evaluation-Multi-Aspects-Review-Dataset由DeepNLP AI Service User Review Panel于2024年9月发布，旨在通过用户的多维度评分和反馈，为LLM的微调、人类偏好对齐、少样本学习等任务提供数据支持。该数据集涵盖了ChatGPT、Gemini、Claude和Perplexity等主流AI助手的用户评价，评分范围从1到5，涵盖了正确性、帮助性、趣味性等多个维度。用户还可以自定义标签，如推理时间、内容冗余等，进一步丰富了数据集的多样性。该数据集的发布为LLM的优化和改进提供了宝贵的实证依据。

当前挑战

该数据集在构建和应用过程中面临多重挑战。首先，用户评价的主观性和多样性可能导致评分标准不一致，影响数据的可靠性和一致性。其次，不同AI模型的应用场景和用户群体差异较大，如何确保数据集的代表性和普适性是一个难题。此外，用户自定义标签的引入虽然增加了数据的灵活性，但也带来了标签管理和数据清洗的复杂性。在应用层面，如何从多维度的评分中提取有效的特征，用于模型的微调和优化，仍是一个有待深入研究的课题。这些挑战不仅涉及数据质量的控制，还关系到模型性能提升的实际效果。

常用场景

经典使用场景

在大型语言模型（LLM）的微调和人类偏好对齐研究中，ChatGPT-Gemini-Claude-Perplexity-Human-Evaluation-Multi-Aspects-Review-Dataset被广泛用于评估不同AI助手的表现。通过用户的多维度评分，研究者能够深入分析模型在正确性、帮助性、趣味性等方面的表现，从而为模型的优化提供数据支持。

解决学术问题

该数据集解决了LLM微调和人类偏好对齐中的关键问题，尤其是在少样本学习和错误案例分析方面。通过收集用户对AI生成内容的多维度评分，研究者能够更准确地理解人类对AI输出的期望，从而设计出更符合人类偏好的模型。这一数据集为LLM的优化提供了宝贵的反馈，推动了AI与人类交互的自然性和有效性。

衍生相关工作

基于该数据集，研究者们开展了多项经典工作，如基于人类反馈的强化学习（RLHF）和直接偏好优化（DPO）。这些工作通过利用用户的多维度评分，进一步优化了LLM的输出质量。此外，该数据集还催生了一系列关于AI助手在不同领域（如教育、医疗、金融等）表现的研究，推动了AI技术的跨领域应用。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集