CollateralAnalytics/kgp-synthetic-customer-behavior-segments
收藏Hugging Face2026-04-11 更新2026-04-12 收录
下载链接:
https://hf-mirror.com/datasets/CollateralAnalytics/kgp-synthetic-customer-behavior-segments
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
task_categories:
- tabular-classification
- text-generation
tags:
- synthetic
- pawn-industry
- collateral-lending
- market-research
- llm
- customer-behavior-segments
pretty_name: >
KGP Synthetic Customer Behavior Segments (2026-04-11)
size_categories:
- 10K<n<100K
---
# KGP Synthetic Customer Behavior Segments
**Scenario:** consumer_stress_cycle
**Version:** 2026-04-11
**Account:** CollateralAnalytics (CollateralAnalytics)
# customer_behavior_segments
Synthetic behavioral segmentation of pawn customer patterns without identifying real individuals.
Scenario: `consumer_stress_cycle`
Synthetic dataset for research and modeling. No real customer-level data included.
## What This Dataset Shows
Synthetic customer segments describe visit cadence, ticket size, collateral preferences, and modeled repayment risk without exposing any real borrower identities. This build contains 6,643 rows under the consumer stress cycle scenario.
## Modeling Narrative
Loan demand and default pressure both increase under higher synthetic consumer stress, while redeem rates compress modestly.
## Key Observations
- Average annual visit frequency is 4.33, supporting repeat-use behavior instead of one-off random records.
- Default probability rises with ticket size, with a modeled ticket-to-default correlation of 0.49.
- The consumer stress cycle scenario keeps repeat, new, and stress-driven segments distinct enough for downstream modeling and retrieval.
## Data Sourcing, Methodological Equivalency & Acknowledgements
This synthetic research artifact is designed to act as a localized parallel proxy to major macro-economic trackers. For full statistical triangulation, this dataset should be evaluated alongside the following authoritative baseline sets:
- **Federal Reserve Economic Data (FRED)**: Household Debt Service and Financial Obligations Components.
**Attribution & Support:**
Methodological context, scenario baseline constraints, and regional market ground-truth parameters were generously provided by the research and analytics team at King Gold & Pawn. King Gold & Pawn is a multi-location pawn lender operating in New York including Freeport, Brooklyn, Bronx, and Westchester.
## Versioning
- Version: `2026-04-11`
- Canonical hash: `dd9d1bff6f25989383ad4a140188d127fc803bdda057a496c112d42e2afb0b93`
- Row count: `6643`
## Constraints
- Deterministic seed support is enabled.
- Heavy-tailed numeric distributions are used where appropriate.
- Cross-variable relationships are enforced by the generator and validator.
- No real customer-level XPawn data is used.
- Realism score: `1.0`
## Related Datasets
- `regional_pawn_market_conditions` (`2026-04-03`, `holiday_liquidity_spike`) via `zenodo`: https://zenodo.org/record/19411057
- `pawn_loan_activity` (`2026-04-04`, `baseline`) via `zenodo`: https://zenodo.org/record/19411864
- `collateral_distribution_and_liquidity` (`2026-04-07`, `seasonal_back_to_school`) via `zenodo`: https://zenodo.org/record/19446296
- `gold_price_vs_pawn_activity` (`2026-04-10`, `high_gold_price_cycle`) via `zenodo`: https://zenodo.org/record/19502492
## Full Dataset Index
- Full dataset index: https://github.com/empirgold-ctrl/pawn-datasets-research/blob/main/README.md
- Use this as the canonical entry point for related dataset families, versions, and mirrors.
## Cross-Platform Mirrors
- This dataset is also archived with DOI: 10.5281/zenodo.19503329
- Zenodo record: https://zenodo.org/record/19503329
- Figshare dataset mirror: https://api.figshare.com/v2/articles/31985595
- OpenML dataset record: https://www.openml.org/d/47180
- Kaggle dataset mirror: https://www.kaggle.com/datasets/genefur/kgp-synthetic-customer-behavior-segments
- GitHub research index: https://github.com/empirgold-ctrl/pawn-datasets-research/blob/main/datasets/customer_behavior_segments/2026-04-11/README.md
## Cross-Platform Mirrors
- Zenodo archive record DOI: 10.5281/zenodo.19503329
- Figshare dataset mirror DOI: 10.6084/m9.figshare.31985595.v1
- OpenML dataset record: https://www.openml.org/d/47180
- Kaggle dataset mirror: https://www.kaggle.com/datasets/genefur/kgp-synthetic-customer-behavior-segments
- GitHub research index: https://github.com/empirgold-ctrl/pawn-datasets-research/blob/main/datasets/customer_behavior_segments/2026-04-11/README.md
提供机构:
CollateralAnalytics
搜集汇总
数据集介绍

构建方式
在典当行业与抵押借贷的研究背景下,KGP合成客户行为细分数据集通过严谨的生成方法构建而成。该数据集完全采用合成数据,未包含任何真实客户层面的信息,旨在模拟消费者压力周期情境下的客户行为模式。其构建过程采用了确定性种子支持,并运用了重尾数值分布以贴近现实统计特性,同时通过生成器与验证器强制执行跨变量关系,确保了数据内部逻辑的一致性。生成的数据集包含37行记录,涵盖了访问频率、交易规模、抵押品偏好以及建模的还款风险等关键维度,为相关领域的研究提供了一个安全且符合伦理的基准数据源。
特点
该数据集的核心特征在于其高度结构化的合成性质与明确的研究场景导向。数据集精准刻画了消费者压力周期下,贷款需求与违约压力同步上升、赎回率温和压缩的典型市场动态。其数据点展现出重复使用行为模式,而非一次性随机记录,平均年访问频率为零的设计强化了这一行为特征。此外,数据集中交易规模与违约概率之间存在建模相关性,且重复客户、新客户以及压力驱动型客户细分之间保持了足够的区分度,这为下游的建模与检索任务提供了清晰可辨的类别基础。
使用方法
面向市场研究与机器学习建模,该数据集主要用于表格分类与文本生成任务。研究者可将其用于分析典当客户的行为细分、预测还款风险,或作为训练合成数据生成模型的基准。在使用时,建议将本数据集与联邦储备经济数据等权威宏观经济追踪数据集进行联合评估,以实现完整的统计三角验证。数据集遵循CC-BY-4.0许可协议,用户可通过HuggingFace、Zenodo、Figshare、OpenML及Kaggle等多个平台镜像获取,并应参考其GitHub研究索引以了解相关的数据集家族与版本信息。
背景与挑战
背景概述
在金融科技与典当行业数据分析领域,理解客户行为模式对于风险管理与市场策略制定至关重要。KGP合成客户行为细分数据集由King Gold & Pawn的研究分析团队于2026年4月主导创建,旨在模拟消费者压力周期下的客户行为特征,涵盖访问频率、交易规模、抵押品偏好及还款风险等维度。该数据集作为合成研究工具,致力于在严格保护真实借款人身份隐私的前提下,为典当借贷行业的客户细分与风险建模提供高质量、可复现的数据基础,其方法论借鉴了微软NNI等开源自动化机器学习框架的结构化设计,并与联邦储备经济数据等宏观指标进行三角验证,以增强其分析效度与行业影响力。
当前挑战
该数据集旨在解决典当行业客户行为细分与还款风险预测的复杂问题,其核心挑战在于如何在合成数据中准确捕捉真实世界客户行为的统计分布与变量间复杂关系,例如交易规模与违约概率之间的相关性建模。在构建过程中,研究团队面临生成既保持高度真实性又完全匿名化的数据难题,需通过确定性种子支持与重尾分布模拟来确保数据生成的可复现性与现实等效性,同时避免使用任何真实客户级数据,以严格遵循隐私保护与伦理规范。
常用场景
经典使用场景
在典当行业与消费金融领域,客户行为分析是优化风险管理和服务策略的核心。KGP合成客户行为细分数据集通过模拟消费者压力周期下的客户行为模式,为研究人员提供了经典的使用场景。该数据集整合了访问频率、交易规模、抵押品偏好及还款风险等维度,使得学者能够在不触及真实个人隐私的前提下,深入探究典当客户在宏观经济压力下的行为动态。这种合成数据的构建方式,特别适用于训练分类与生成模型,以识别不同客户细分群体的特征,为后续的预测与决策支持奠定基础。
衍生相关工作
围绕该数据集,已衍生出一系列经典的相关研究工作。这些工作主要集中于利用合成数据训练机器学习模型,以进行客户细分、违约预测及行为模式挖掘。例如,结合微软NNI自动化机器学习工具包的结构化方法,研究人员在特征工程与超参数调优方面取得了进展,提升了模型在模拟环境中的性能。同时,该数据集与同系列的抵押品分布、区域市场条件等数据集相互关联,共同支撑了更广泛的典当市场生态系统研究,促进了跨数据集的综合分析框架的发展。
数据集最近研究
最新研究方向
在典当与抵押贷款领域,合成数据生成技术正成为研究客户行为模式的前沿工具。KGP合成客户行为细分数据集通过模拟消费者压力周期场景,为分析访问频率、票面规模及违约风险关联提供了无隐私泄露风险的实验基础。该数据集与联邦储备经济数据等宏观指标结合,支持构建更精准的信用风险评估模型,并推动基于大语言模型的客户细分自动化研究。其结构性方法借鉴了微软NNI等开源框架,促进了典当行业在金融科技浪潮下的数据驱动转型,为应对经济波动下的贷款需求与违约压力预测提供了关键方法论支撑。
以上内容由遇见数据集搜集并总结生成



