Who are you,ChatGPT?Personality and Demographic Style in LLM-Generated Content

Name: Who are you,ChatGPT?Personality and Demographic Style in LLM-Generated Content
Creator: 特拉维夫雅法学术学院
Published: 2025-10-13 22:06:17
License: 暂无描述

arXiv2025-10-13 更新2025-10-15 收录

下载链接：

https://arxiv.org/abs/2303.06592

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集收集了来自Reddit的开放式问题及其答案，以及LLMs对这些问题生成的回复，旨在研究LLMs的语言是否表现出与人类相似的个性和人口统计特征。数据集包含来自175个Reddit社区的13K个帖子以及超过30K条评论，由数千名Reddit用户撰写。此外，数据集还包含了来自多个LLMs的回复，用于比较人类和模型在Big Five维度上的个性和人口统计特征。该数据集可用于研究LLMs的个性和人口统计特征，以及它们在自然语言处理中的应用。

This dataset collects open-ended questions and their corresponding human answers from Reddit, as well as responses generated by large language models (LLMs), aiming to investigate whether the language of LLMs exhibits personality and demographic characteristics similar to those of humans. The dataset includes 13,000 posts and over 30,000 comments from 175 Reddit communities, authored by thousands of Reddit users. Additionally, the dataset contains responses from multiple LLMs, which are used to compare the personality and demographic characteristics of humans and models across the Big Five personality dimensions. This dataset can be utilized to study the personality and demographic traits of LLMs, as well as their applications in natural language processing.

提供机构：

特拉维夫雅法学术学院

创建时间：

2025-10-13

搜集汇总

数据集介绍

构建方式

在大型语言模型日益渗透日常交流的背景下，该数据集通过创新方法构建，旨在系统评估模型生成内容中的人格与人口统计学特征。研究团队从Reddit平台精选了涵盖科技、健康、生活方式等多元主题的开放式问题，并同步收集人类用户的真实回复。随后，采用六种主流开源与闭源模型，在严格控制温度参数的条件下生成模拟社交媒体用户的回复，最终形成包含数万条人类与模型文本的对比语料库。

特点

该数据集的核心特征在于其多维度分析框架与高质量数据构成。通过自动人格分类器对文本进行大五人格特质量化，模型展现出显著高于人类的宜人性与较低神经质倾向，印证了其协作性与心理稳定性设计目标。在性别语言特征方面，模型输出虽与人类模式总体吻合，但变异程度较低，揭示了训练数据中潜在的人口统计学偏差。数据集同时囊括了不同温度参数下的生成结果，为研究模型输出稳定性提供了丰富对比维度。

使用方法

该数据集为探索生成式人工智能的社会属性提供了标准化研究范式。研究者可借助预训练的人格与性别分类器，对模型生成文本进行特质量化分析，通过比较人类基线数据揭示系统性差异。数据集支持对模型输出稳定性、风格多样性及文化偏见的深入探究，同时其精心设计的提示词框架可作为控制变量研究的重要参考。开放获取的语料库结构便于开展跨模型、跨领域的对比实验，推动生成式AI伦理评估方法论的发展。

背景与挑战

背景概述

由特拉维夫-雅法学院研究人员Dana Sotto Porat与Ella Rabinovich于2025年构建的Who are you, ChatGPT?数据集，聚焦于探索生成式大语言模型在自然语言表达中的人格与人口统计学特征。该数据集通过收集Reddit平台开放式问题的人类回复与模型生成内容，采用自动人格分类器分析大五人格特质，揭示了模型在合作性与心理稳定性方面的系统性倾向，为人工智能语言生成研究提供了重要的实证基础。

当前挑战

该数据集致力于解决生成式模型人格特征量化这一前沿问题，其核心挑战在于如何超越传统自陈式问卷的局限，通过语言分析工具实现客观评估。构建过程中面临多重困难：自动人格分类器依赖有限训练数据存在文化偏见；Reddit数据源难以代表广泛人群；模型提示指令可能引入风格干扰；同时需在保护用户匿名性与遵循伦理规范间取得平衡。

常用场景

经典使用场景

在自然语言处理与计算心理学交叉领域，该数据集通过采集Reddit平台开放式问题的人类回复与大型语言模型生成内容，构建了大规模对比语料库。其经典应用场景聚焦于自动化人格特质分析，研究者利用预训练的人格分类器对文本进行五大人格维度评分，系统比较人类与人工智能在语言表达中呈现的稳定性、外向性等心理特征差异，为理解生成式模型的认知模式提供了数据基础。

实际应用

在人工智能内容安全与个性化服务领域，该数据集支撑了生成文本的心理特征监测系统开发。通过分析模型生成内容的人格倾向，可优化对话系统的情感交互能力，如在心理咨询机器人中调节神经质表达水平。社交媒体平台利用该研究构建的内容审核机制，能识别具有特定心理特征的自动化账号，为维护网络环境真实性提供技术支撑。

衍生相关工作

该数据集催生了多项关于生成模型社会属性建模的创新研究。继Giorgi等人对社交机器人人口特征的研究后，本工作启发了对LLMs性别语言模式的系统分析。后续研究扩展到跨文化人格表达比较、多模态心理特征检测等领域，如Serapio-García等人构建的机器人格量表，以及Jiang等人提出的模型人格诱导框架，均建立在此数据集揭示的基础规律之上。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集