five

thoughtworks/psychometric_human_annotations

收藏
Hugging Face2026-05-01 更新2026-02-07 收录
下载链接:
https://hf-mirror.com/datasets/thoughtworks/psychometric_human_annotations
下载链接
链接失效反馈
官方服务:
资源简介:
--- dataset_info: features: - name: file_name dtype: string - name: persona_uuid dtype: string - name: annotations struct: - name: clarity dtype: string - name: coherence dtype: string - name: consistency dtype: string - name: demographic_fidelity dtype: string - name: diversity dtype: string - name: ethical_considerations dtype: string - name: informativeness dtype: string - name: originality dtype: string - name: overall_score dtype: string - name: psychological_depth dtype: string - name: realism dtype: string splits: - name: persona num_bytes: 7040 num_examples: 55 download_size: 8030 dataset_size: 7040 configs: - config_name: default data_files: - split: persona path: data/persona-* license: apache-2.0 ---
提供机构:
thoughtworks
搜集汇总
数据集介绍
main_image_url
构建方式
该数据集基于心理测量学中的人格评估理论,通过系统收集人类标注者对特定人格角色的多维反馈构建而成。每个样本包含文件名称、人格角色UUID以及由标注人员提供的十项结构化评估,涵盖清晰度、连贯性、一致性、人口统计忠实度、多样性、伦理考量、信息性、原创性、心理深度和真实感等维度,最终汇聚为一个总体评分。数据集以55个独立的人格角色为单元进行划分,确保每个角色拥有完整的标注记录,从而支持细粒度的心理特质建模与分析。
使用方法
研究人员可加载HuggingFace上的'psychometric_human_annotations'数据集,直接访问55个人格角色的标注数据。建议将注释字段中的十个评分作为多标签分类或回归任务的目标变量,用于训练和评估语言模型生成人格化文本的能力。对于需要验证模型对齐度的场景,可基于总体评分进行排序,筛选出高质量的角色示例作为参考基准。在实际应用中,该数据集也适合作为人类反馈微调(RLHF)环节的初始标注资源,帮助优化对话系统在人格一致性、伦理合规性及心理真实感方面的表现。
背景与挑战
背景概述
在自然语言处理与人机交互的交叉领域中,如何评估生成式语言模型所构建虚拟人格的真实性与心理深度,成为一项亟待探索的核心议题。psychometric_human_annotations 数据集由相关领域的研究团队创建,旨在通过人类标注者对对话或文本生成样本进行多维度心理测量评估,涵盖清晰度、连贯性、一致性、人口学保真度、多样性、伦理性、信息量、原创性、心理深度和真实感等十余项细分指标。该数据集的发布为评估模型在塑造可信、复杂且具有社会敏感性的虚拟角色方面的能力提供了标准化基准,对推动更具人性化与伦理关怀的对话系统研究具有重要影响。
当前挑战
该数据集面临的挑战主要源于两个层面。在领域问题层面,模型生成的虚拟人格往往难以兼顾多样性、一致性与心理深度,常见表现包括角色行为不稳定、缺乏真实的社会文化背景映射,以及难以规避隐含的伦理偏见,这直接制约了人机交互的自然度与可信度。在构建过程中,人类标注者的主观判断差异、标注维度的抽象性(如心理深度与原创性)以及跨情境一致性维护,均构成了显著的技术与组织难题,需要依赖精细的标注指南和迭代校准来保障数据质量。
常用场景
经典使用场景
该数据集名为psychometric_human_annotations,专注于记录人类对文本生成内容在心理测量学维度上的主观评价。在自然语言生成与计算人格学的交叉研究中,它被广泛用于评估模型生成文本的心理真实性、情感深度与人格一致性。经典使用场景包括:对比不同语言模型(如GPT系列、LLaMA等)在模拟特定人格角色时的输出质量,通过标注维度如清晰度、连贯性、心理深度和人口学保真度,量化模型在拟人化叙事中的表现。
解决学术问题
该数据集系统性地解决了学术领域中关于自动生成文本缺乏心理测量验证的难题。研究者常面临如何客观衡量生成文本是否具备人类心理复杂性的困境,尤其是在个性化对话系统与人格模拟任务中。通过引入多维标注体系,它使得学者能够从伦理考量、创新性、信息量等角度剖析模型输出的心理学可行性,推动了计算心理学与自然语言处理融合领域的发展,为人机交互中的人格建模提供了坚实的数据基础。
实际应用
在实际应用中,该数据集助力于构建更具人情味的智能对话系统和虚拟角色。在社交媒体自动化、心理辅导聊天机器人以及游戏NPC设计等场景中,开发者利用其标注数据微调模型,确保生成内容在人口学特征、情感多样性和伦理敏感性上符合目标用户群体。此外,它还支持心理测评工具自动生成个性化报告,提升心理咨询服务的可及性与效率。
数据集最近研究
最新研究方向
该数据集聚焦于对生成式人格画像进行多维度的心理测量学评估,涵盖清晰度、连贯性、一致性、人口统计学忠实度、多样性、伦理性、信息量、原创性、心理深度与真实感等核心指标。当前前沿方向集中于利用该标注体系构建更符合人类认知偏好的个性化对话系统,并推动大语言模型在角色扮演、心理咨询等情感计算场景中的伦理对齐与真实性校验。该数据集的出现为评估生成人格的可信度与生态效度提供了量化基准,其多维度标注框架有望成为标准化测评工具,深刻影响人机交互中用户信任机制与数字身份构建的研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作