HiCUPID (Conversations with User Personal Information Dataset)

Name: HiCUPID (Conversations with User Personal Information Dataset)
Creator: 首尔国立大学电子与计算机工程系
Published: 2025-06-02 10:25:46
License: 暂无描述

arXiv2025-06-02 更新2025-06-05 收录

下载链接：

https://github.com/12kimih/HiCUPID

下载链接

链接失效反馈

官方服务：

资源简介：

HiCUPID是一个针对个性化人工智能助手研究的新型基准数据集。该数据集由首尔国立大学的研究团队创建，旨在解决当前个性化LLM研究中的数据集缺乏问题。HiCUPID数据集包含1500个用户的对话历史和QA对，每个用户定义了25个人格特质、5个个人资料信息和10个日程安排。该数据集旨在评估LLM在处理用户信息、理解隐含信息、推理多信息、长上下文建模能力以及响应主动性方面的能力。HiCUPID数据集还提供了一个基于Llama-3.2的自动化评估模型，用于评估生成的响应的个性化程度。该数据集的发布将有助于推动LLM在个性化助手领域的应用和研究。

HiCUPID is a novel benchmark dataset for personalized AI assistant research. Developed by a research team from Seoul National University, it aims to address the shortage of available datasets in current personalized large language model (LLM) research. The HiCUPID dataset contains conversation histories and QA pairs from 1500 users, with each user defined by 25 personality traits, 5 profile details, and 10 scheduled events. This benchmark is designed to evaluate LLMs' capabilities in processing user information, understanding implicit information, multi-information reasoning, long-context modeling, and proactive response generation. Additionally, the HiCUPID dataset provides an automated evaluation model based on Llama-3.2 to assess the personalization level of generated responses. The release of this dataset will help advance the application and research of LLMs in the personalized assistant domain.

提供机构：

首尔国立大学电子与计算机工程系

创建时间：

2025-06-02

原始信息汇总

HiCUPID数据集概述

数据集简介

名称：HiCUPID
用途：专为训练和评估大型语言模型(LLMs)作为个性化AI助手而设计的基准测试
特点：
- 首个开源个性化对话数据集
- 包含基于Llama-3.2-3B-Instruct的自动化评估模型
- 评估模型可衡量回答的逻辑一致性和人物意识

数据集内容

数据类型：个性化对话数据
数据特征：
- 用户ID、对话ID、问题ID
- 问题文本
- 个性化回答和通用回答
- 问题类型和元数据
- 数据集划分(训练/验证/测试)

获取方式

数据集地址：https://huggingface.co/datasets/12kimih/HiCUPID
评估模型地址：https://huggingface.co/12kimih/Llama-3.2-3B-HiCUPID

主要功能

推理功能：
- 支持HuggingFace和OpenAI的LLMs生成回答
- 支持单GPU和多GPU配置
评估功能：
- 支持A/B测试评估
- 可比较模型生成回答与真实回答
模型微调：
- 支持监督微调(SFT)
- 支持直接偏好优化(DPO)
- 默认使用LoRA进行参数高效微调

技术特点

评估标准：
- 个性化程度
- 逻辑有效性
支持模型：
- 基于Llama-3架构
- 支持8位和4位量化
- 可选FlashAttention-2加速

使用要求

Python版本：3.11
依赖管理：推荐使用Miniconda
硬件要求：
- 支持Ampere、Ada或Hopper架构GPU
- 需要CUDA Toolkit 11.7或更高版本

许可信息

许可证类型：Apache-2.0
许可证文件：https://github.com/12kimih/HiCUPID/blob/main/LICENSE

搜集汇总

数据集介绍

构建方式

HiCUPID数据集通过GPT-4o生成合成对话和问答对，构建了一个包含用户个性化信息的对话数据集。每个用户由25个角色维度、5个个人资料信息和10个日程安排定义，这些信息在对话历史中自然揭示。数据集包含单信息问答对和多信息问答对，用于测试模型对用户个性化信息的理解和推理能力。此外，HiCUPID还提供了基于Llama-3.2的自动评估模型，其评估结果与人类偏好高度一致。

使用方法

HiCUPID数据集可用于训练和评估大型语言模型作为个性化助手的能力。研究人员可以使用数据集中的对话历史和问答对进行零样本或少样本推理，也可以使用检索增强生成（RAG）方法或监督微调（SFT）等技术进行模型优化。数据集的自动评估模型可以用于快速评估模型生成的响应是否符合个性化需求。此外，数据集还支持两种评估设置：已知用户/未知问答对和未知用户/未知问答对，以适应不同的研究需求。

背景与挑战

背景概述

HiCUPID（Conversations with User Personal Information Dataset）是由首尔国立大学电气与计算机工程系的研究团队于2025年推出的开源对话数据集，旨在推动大型语言模型（LLMs）作为个性化助手的研究。该数据集由Jisoo Mok、Ik-hwan Kim等学者构建，聚焦于解决LLM个性化响应生成的核心问题，填补了该领域缺乏公开基准数据的空白。HiCUPID通过合成对话历史和问答对，模拟真实用户与助手交互场景，并首次整合了用户画像、日程等多维度个人信息，为评估模型在个性化对话中的表现提供了标准化测试平台。其创新性在于提出了个性化助手的五大需求标准（AUI、UII等），并通过基于Llama-3.2的自动化评估模型实现了与人类偏好高度一致的评价体系，显著提升了相关研究的可复现性。

当前挑战

HiCUPID面临双重挑战：在领域问题层面，需解决LLMs个性化响应生成的复杂需求，包括对隐式用户信息的理解（如从对话历史推断偏好）、多源信息推理（如结合用户画像与日程）以及长上下文建模等核心难题；在构建过程中，挑战体现在合成数据的真实性保障（需确保25种人格维度的自然流露）、评估体系的设计（需区分个性化响应与通用回答）以及隐私保护（合成数据需规避真实用户信息）。具体而言，对话生成需平衡信息暗示的隐蔽性与可检测性，而评估模型需克服传统指标（如BLEU）与人类偏好的偏差问题。此外，数据集的规模（平均17k tokens/对话）对模型的长文本处理能力提出了极高要求。

常用场景

经典使用场景

在个性化AI助手的研究与开发中，HiCUPID数据集被广泛应用于训练和评估大型语言模型（LLMs）的个性化响应能力。该数据集通过模拟用户与助手之间的对话历史，涵盖了用户的多维度个人信息，如人格特质、职业背景和日程安排，为研究者提供了一个丰富的测试平台。其经典使用场景包括测试模型在长上下文环境下的信息提取能力、多源信息推理能力以及对用户隐私信息的自然流露处理能力。

解决学术问题

HiCUPID数据集解决了当前LLM研究中的多个关键问题，包括缺乏针对个性化助手的公开对话数据集、现有数据集无法全面评估个性化生成能力等。通过提供包含用户元数据、对话历史和问答对的综合数据，该数据集使研究者能够系统地探索模型在用户信息遵循、隐式信息理解、多信息推理、长上下文建模和主动响应等五个维度的表现。其意义在于填补了该领域的研究空白，为开发更智能、更个性化的AI助手奠定了基础。

实际应用

在实际应用场景中，HiCUPID数据集可助力开发各类个性化AI产品，如智能日程管理助手、个性化内容推荐系统和定制化客户服务机器人。例如，在医疗健康领域，基于该数据集训练的模型可结合患者的病史对话记录，提供个性化的健康建议；在教育领域，可根据学习者的兴趣和进度生成定制化的学习内容。其合成数据的特性也避免了真实用户隐私泄露的风险。

数据集最近研究