PersonaGen-15K

Hugging Face2026-02-16 更新2026-02-17 收录

下载链接：

https://huggingface.co/datasets/rankfor/PersonaGen-15K

下载链接

链接失效反馈

官方服务：

资源简介：

PersonaGen-15K是一个包含14,955个匿名买家角色的研究样本数据集，从完整的PersonaGen-149K数据集（148,636个角色）中分层抽取10%构成。该数据集专为消费者信息寻求行为研究设计，覆盖23个主要行业和4种市场环境（B2C、B2B、B2B2C、B2G）。每个角色包含行业分类、市场环境和详细行为属性（如搜索查询、信息需求、目标和痛点等结构化数据）。数据集通过多阶段流程构建，包括原始数据聚合、去重、语义去重、LLM增强和质量过滤。主要应用场景包括研究方法验证、搜索个性化、AI公平性评估和消费者行为建模等研究领域。数据集具有行业多样性但存在美国地理中心性和LLM生成偏差等局限性。

PersonaGen-15K is a research sample dataset comprising 14,955 anonymized buyer personas, which is derived via stratified sampling of 10% from the complete PersonaGen-149K dataset that contains 148,636 total personas. This dataset is specifically developed for consumer information-seeking behavior research, covering 23 major industries and four market environments: B2C, B2B, B2B2C, and B2G. Each persona contains structured data including industry classification, market environment, and detailed behavioral attributes such as search queries, information needs, objectives, and pain points. The dataset is constructed via a multi-stage pipeline encompassing raw data aggregation, deduplication, semantic deduplication, LLM enhancement, and quality filtering. Its primary application scenarios span research methodology validation, search personalization, AI fairness assessment, consumer behavior modeling, and other related research domains. While the dataset boasts industry diversity, it also has limitations such as U.S. geographic centrality and LLM-generated bias.

创建时间：

2026-02-15

搜集汇总

数据集介绍

构建方式

在消费者信息寻求行为研究领域，PersonaGen-15K数据集作为PersonaGen-149K全集的代表性样本，其构建过程体现了严谨的数据工程方法。该数据集源自四个公开的人物角色语料库，通过多阶段流水线处理而成。初始阶段聚合了约四千万条原始描述，随后采用GPU加速的MinHash局部敏感哈希技术进行去重，并进一步利用密集嵌入模型进行语义去重，以消除语义相近的重复项。核心构建环节借助大型语言模型对每个人物角色进行结构化丰富，生成人口统计信息、行为属性及行业分类等关键字段，最终经过模式验证和质量过滤，形成了具备统计代表性的分层样本。

特点

该数据集在市场营销与消费者行为分析领域展现出独特价值，其核心特点在于规模与结构的平衡。作为包含近一万五千条匿名买家角色的研究样本，它覆盖了二十三个主要行业垂直领域和四种市场背景，确保了跨领域的代表性。数据集内部结构严谨，每条记录均包含行业、市场背景及一个结构化的JSON细节字段，其中封装了搜索查询、信息需求、目标与痛点等多维度行为属性。样本通过分层比例抽样方法生成，完整保留了全数据集的统计分布特性，其行业分布误差控制在千分之二以内，为学术研究的可复现性与方法验证提供了可靠基础。

使用方法

研究人员可通过Hugging Face的`datasets`库便捷加载此数据集，并利用其结构化字段进行深入分析。典型使用流程包括加载数据集、解析`details`字段中的JSON字符串以获取具体行为属性，并运用过滤功能按行业或市场背景筛选特定子集。例如，可提取特定行业的所有搜索查询以分析用户意图分布，或依据人口统计特征进行分组比较。该数据集适用于搜索个性化、人工智能公平性审计及消费者行为建模等多种研究场景，同时也为评估数据质量、指导内容策略提供了实践工具。在使用时需注意其合成数据的本质，避免将其作为真实用户行为的绝对依据。

背景与挑战

背景概述

PersonaGen-15K数据集作为PersonaGen-149K的代表性研究样本，由爱沙尼亚创业应用科学大学与Rankfor.AI的研究团队于2025年联合构建，旨在为消费者信息寻求行为研究提供大规模、结构化的AI生成买家角色数据。该数据集通过聚合并精炼多个公开角色语料库，运用先进的去重与大型语言模型增强技术，生成了涵盖23个行业、4种市场背景的14,955个匿名化角色。其核心研究问题聚焦于模拟和理解跨行业消费者的搜索查询、信息需求、目标与痛点等行为模式，为个性化搜索、内容策略及人工智能公平性评估等领域提供了宝贵的基准资源。

当前挑战

该数据集致力于解决消费者信息寻求行为建模这一领域问题，其核心挑战在于如何精准捕捉并泛化多样化的、真实的用户意图与行为模式，以支撑可靠的个性化系统研发。在构建过程中，研究团队面临多重技术挑战：首先，需从数千万原始描述中高效去除语义及文本层面的重复项，确保数据多样性；其次，依赖大型语言模型进行结构化信息增强时，需控制生成偏差并维持跨批次的分布一致性；此外，数据的地理中心化（以美国为主）与行业不平衡性，亦对模型的跨文化与跨领域泛化能力构成了潜在限制。

常用场景

经典使用场景

在消费者行为研究领域，PersonaGen-15K数据集为信息搜寻行为的建模提供了结构化基础。该数据集最经典的应用场景在于为搜索个性化与意图分类研究提供丰富的训练与验证素材。研究者可利用其中涵盖23个行业、近1.5万个人物角色的搜索查询、信息需求与行为目标，构建并测试能够理解不同行业背景下用户查询意图的计算模型。其分层抽样的设计确保了研究结果的可复现性，使得基于该数据集开发的算法能够在保留原始数据统计特性的前提下进行有效评估。

衍生相关工作

基于PersonaGen-149K完整数据集衍生的研究工作，主要集中于利用其大规模合成人物角色推动个性化技术的前沿探索。相关经典工作可能包括开发新型的意图识别模型，这些模型能够跨行业泛化理解用户的商业搜索意图；以及构建更精细化的消费者行为模拟框架，用于预测不同市场情境下的信息需求演变。该数据集也为评估生成式AI在合成数据创建中的偏差与真实性提供了基准平台。

数据集最近研究