okcupid-dating-personas

Hugging Face2026-04-12 更新2026-04-13 收录

下载链接：

https://huggingface.co/datasets/benjac8/okcupid-dating-personas

下载链接

链接失效反馈

官方服务：

资源简介：

OkCupid Dating Personas 数据集是一个用于高级探索性数据分析（EDA）和聚类的数据集，旨在通过数学方法将用户分组为不同的“约会角色”。数据集包含经过清洗和转换的OkCupid用户资料，重点关注可测量的 demographics 和行为习惯。数据字段包括年龄、性别、身高、收入、性取向、体型、饮食习惯、饮酒习惯、吸烟习惯、药物使用频率、教育水平、职业、宗教信仰和当前关系状态等。所有分类变量均已编码为数值，连续变量（如身高和收入）通过迭代插补方法填补缺失值，并剔除了异常值（如年龄超过70岁或收入超过25万美元）。数据集适用于表格分类和回归任务，特别适合用于构建约会推荐系统的聚类算法。

创建时间：

2026-04-12

搜集汇总

数据集介绍

构建方式

在在线约会平台的用户画像分析领域，OKCupid数据集通过系统性的数据清洗与转换流程构建而成。原始数据包含59,946份用户档案，涵盖31个维度的 demographic 与 lifestyle 特征，其中包含10个自由文本字段。构建过程首先剔除了与数值聚类分析无关的 essay 字段及缺失率较高的 offspring 列；随后将日期字符串转换为可量化的 days_since_online 指标，并对 religion、sign、diet 等自由文本分类变量进行标准化提取。针对高基数特征如 ethnicity 与 speaks，分别采用首选项提取与语言数量计数的方法进行简化。教育程度被映射为0至6的序数尺度，其余文本特征则通过标签编码转化为整数。收入字段中的占位符-1被识别为缺失值，并采用 IterativeImputer 进行预测性插补，有效捕捉特征间的潜在关联。最后基于IQR分析移除了年龄、身高与收入中的异常值，最终生成包含19个数值特征、零缺失值的洁净数据集，为后续的聚类分析奠定了坚实基础。

特点

该数据集在约会推荐系统研究中展现出多维度特点。其核心在于将复杂的用户画像转化为完全数值化的特征矩阵，消除了原始数据中的文本噪声与缺失问题。特征维度涵盖 demographic 属性如年龄、性别、教育程度，以及 lifestyle 指标包括饮酒、吸烟、药物使用习惯等，形成对用户社交行为的立体刻画。数据分布呈现显著的结构性特征：用户年龄集中分布于25至32岁区间，性别比例呈现约6:4的男性偏态；收入与教育程度存在明显的性别差异模式，而宗教倾向则反映出地域性特征。特别值得注意的是，drinks、smokes、drugs 等 lifestyle 特征之间存在中度正相关，形成自然的行为聚类轴。这些系统性模式表明数据集并非随机分布，而是蕴含着可被机器学习算法识别的内在分组结构，为 dating personas 的理论构建提供了实证基础。

使用方法

该数据集适用于基于生活方式的用户分群与推荐系统开发研究。使用前需通过提供的 Jupyter Notebook 在 Google Colab 环境中完整执行数据清洗流程，依赖 pandas、numpy、scikit-learn 等标准数据处理库。分析路径可分为三个阶段：首先通过单变量可视化探索年龄、收入等特征的分布规律，识别数据的基本结构；继而利用双变量分析揭示特征间的关联模式，如性别与收入的相关性；最终通过多变量热力图与聚类树图识别主导的用户生活方式组合。研究过程中可运用系数变异分析筛选区分度低的特征，结合相关性热图消除冗余变量，为后续的 K-Means 或层次聚类算法优化特征空间。清洗后的数据集可直接保存为 CSV 格式，作为匹配推荐系统的输入数据，其完全数值化的特性确保与主流机器学习框架的兼容性，支持从探索性分析到模型部署的全流程研究。

背景与挑战

背景概述

OKCupid Dating Personas 数据集源于对在线约会平台用户行为模式的深入研究，旨在通过数据驱动的方法构建用户画像体系。该数据集基于 Kaggle 平台提供的原始 OKCupid 用户档案，由数据科学研究者于近年整理构建，核心研究问题聚焦于如何依据用户的生活方式指标将其划分为不同的“约会人格”，从而为个性化匹配推荐系统奠定基础。此项工作不仅揭示了在线约会领域的用户群体特征，也为社交网络分析、推荐算法及用户行为建模提供了重要的实证数据支撑，推动了计算社会科学在人际关系研究中的应用。

当前挑战

该数据集面临的挑战主要体现在两个方面：在领域问题层面，其致力于解决在线约会场景中的用户细分与匹配优化难题，这要求算法能够从高维异构数据中识别出具有语义一致性的用户群体，同时克服数据稀疏性、类别不平衡及动态偏好演化等固有复杂性；在构建过程层面，原始数据包含大量非结构化文本、高基数分类变量及缺失值，需通过精细的数据清洗流程，如自由文本解析、多值字段简化、预测性插补及异常值过滤，才能转化为适用于聚类分析的结构化数值数据集，这一过程对特征工程的鲁棒性与可解释性提出了较高要求。

常用场景

经典使用场景

在在线约会平台的研究中，OKCupid数据集常被用于探索用户行为模式与生活方式特征的聚类分析。通过清洗和转换原始数据，研究者能够识别出基于年龄、收入、教育水平及生活习惯（如饮酒、吸烟等）的潜在用户群体。这种聚类方法为构建个性化推荐系统提供了数据基础，使得匹配算法能够依据用户所属的“约会人格”进行精准推荐，从而提升用户体验和平台互动效率。

衍生相关工作

基于OKCupid数据集，衍生了一系列经典研究工作，主要集中在推荐系统、聚类算法和社会网络分析领域。例如，研究者利用K-Means或层次聚类方法正式识别并标注用户人格类型，进一步探索这些人格在匹配过程中的动态变化。此外，该数据集还激发了关于特征选择、缺失值处理以及可视化技术的创新研究，为后续的在线社交行为分析提供了方法论参考和基准数据。

数据集最近研究