ProlificAI/humaine-evaluation-dataset

Name: ProlificAI/humaine-evaluation-dataset
Creator: ProlificAI
Published: 2026-05-02 00:12:29
License: 暂无描述

Hugging Face2026-05-02 更新2025-09-13 收录

下载链接：

https://hf-mirror.com/datasets/ProlificAI/humaine-evaluation-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

HUMAINE人机交互评估数据集包含了对不同人口统计群体和对话上下文中AI模型互动的人类评价。该数据集分为两部分：对话元数据和反馈比较，可用于模型性能评估、人口统计偏见分析、偏好学习、人机交互研究以及对话AI基准测试。

The HUMAINE Human-AI Interaction Evaluation Dataset contains human evaluations of AI model interactions across diverse demographic groups and conversation contexts. It consists of two main components: Conversations Metadata and Feedback Comparisons, which can be used for model performance evaluation, demographic bias analysis, preference learning, human-AI interaction research, and conversational AI benchmarking.

提供机构：

ProlificAI

搜集汇总

数据集介绍

构建方式

HUMAINE数据集旨在弥补当前AI模型评估中缺乏人口统计学多样性的不足，通过捕获不同群体用户在真实交互中的偏好与反馈，推动包容性AI的发展。数据通过结构化的人类评估任务收集，参与者首先与多种AI模型展开自由对话，随后对模型输出进行成对比较，并从多个维度（如信任与伦理安全性、核心任务表现、交互流畅性等）对对话质量进行评分。所有标注均由Prolific平台上的众包评估员完成，以确保人口统计学的多样性与反馈质量。数据集包含两个核心文件：反馈比较文件（feedback_dataset.parquet）记录成对模型比较及其评估者的人口统计学信息（年龄、种族、政治倾向、居住国）；对话元数据文件（conversations_metadata_dataset.parquet）则记录每次对话的复杂度、目标达成度、用户参与度及消息数量等指标。两者通过对话ID实现关联，共同构建起一个多维度、细粒度的交互评估体系。

使用方法

该数据集的使用路径清晰灵活，尤其适合需要将模型性能与用户多样性相关联的研究场景。用户可通过HuggingFace的通用数据加载工具直接读取两个Parquet文件，并利用`conversation_id`字段将反馈比较表与对话元数据表进行连接，从而构建包含评估者背景与对话上下文信息的完整分析视图。典型应用包括：利用成对比较数据训练偏好学习模型或计算Elo评分；结合人口统计学字段分析模型表现在不同群体间的差异，评估公平性与偏见；借助元数据中的任务与域标签，按特定场景（如医疗咨询或技术辅助）对模型进行专项评测。此外，数据集索引了预先分配的leaderboard榜单，用户可将自身模型的评估结果与公开基准进行横向比较，推动开发更具包容性的对话系统。

背景与挑战

背景概述

在人机交互与对话式人工智能领域，模型性能的评估往往局限于技术指标，忽视了用户群体多样性对交互质量的影响。HUMAINE数据集由Prolific AI团队于2025年创建，旨在填补这一空白，其核心研究问题是如何通过多样化人口群体的真实人类反馈来评估AI模型。该数据集汇集了超过10万条人类评估数据，涵盖不同年龄、族群、政治倾向和地域的用户，对模型在信任、安全、任务表现及交互流畅性等维度进行成对比较。作为HUMAINE排行榜的基石，这一资源推动了更具包容性的AI发展，促使研究者关注模型在不同人群中的公平性与有效性，对对话式AI基准测试领域产生了深远影响。

当前挑战

该数据集解决的核心领域挑战在于传统评估方法忽视人口多样性导致的模型偏见，通过引入细粒度的偏好学习机制，为检测AI系统在特定群体中的表现差异提供了数据基础。构建过程中面临的挑战包括：确保地理代表性，但样本仍主要集中于美国和英国参与者，存在地域偏差；人口统计信息依赖用户自报，可能引入主观误差；模型评估具有时间局限性，无法反映快速迭代的AI系统的最新状态；此外，语言仅限于英语，限制了跨文化应用的通用性。这些挑战要求后续研究在数据收集的广度、分类的客观性以及动态更新机制上持续优化。

常用场景

经典使用场景

在人类与人工智能交互的研究领域中，HUMAINE数据集作为一项开创性资源，主要用于模型性能评估和用户偏好学习。该数据集通过收集人类评估者对多种AI模型对话交互的成对比较反馈，涵盖信任伦理与安全、核心任务表现与推理、交互流畅性与适应性等关键指标，为研究者提供了一个多维度的评价基准。经典使用场景包括：基于不同人口统计特征（如年龄、民族群体、政治倾向、居住国家）分析模型表现差异，以及通过对话元数据（如任务类型、领域、复杂度）探究AI系统在不同使用情境下的适用性。这一数据集使得对AI模型进行细粒度、人口统计学敏感的评估成为可能，推动了更加公平和包容的AI评价体系构建。

解决学术问题

学术界长期面临的一个核心挑战是如何在多样化的用户群体中系统性地评估AI模型的公平性与鲁棒性。HUMAINE数据集通过整合大量跨人口统计维度的成对比较数据和丰富的对话元数据，有效解决了以往评估研究样本单一、缺乏代表性等问题。它使得研究者能够深入探究AI模型在不同年龄段、民族、政治立场和国家的用户群体中是否存在性能偏差，从而揭示潜在的歧视性行为或不公平现象。该数据集的发布对于人机交互、计算社会科学和负责任AI等领域具有重要意义，它不仅提供了实证基础以检验AI系统的差异化服务质量，还为设计更符合伦理要求的交互模型提供了数据驱动的洞察，促进了学术界对AI公平性理论的深化与验证。

实际应用

在实际应用中，HUMAINE数据集为AI产品的质量保障和用户体验优化提供了切实可行的支撑。企业可以利用该数据集对不同AI助手（如客服机器人、医疗咨询系统、技术支持代理）进行跨人口群体的表现监控，识别出可能在某些用户群中表现不佳的模型版本，从而针对性改进。例如，通过分析政治倾向与信任伦理得分的关系，可以调整对话策略以增强特定用户群体的接受度。此外，对话元数据中的任务复杂度评分和用户参与度指标，可用于训练动态任务分配算法，使AI系统能够根据实时交互复杂度调整应答风格。这种数据驱动的迭代优化方法已然成为当前AI服务部署中不可或缺的一环，有效提升了人机协作的效率与满意度。

数据集最近研究