entrepreneurial-readiness-data

Hugging Face2025-09-06 更新2025-09-07 收录

下载链接：

https://huggingface.co/datasets/King-8/entrepreneurial-readiness-data

下载链接

链接失效反馈

官方服务：

资源简介：

创业准备度（表格）数据集是一个适用于表格回归任务的数据集。它包含了与创业准备度相关的特征，如储蓄金额、月收入、月支出、月娱乐支出、销售技能、风险承受水平、年龄、抚养人数、资产和自信心等。数据集的目标是预测一个数值型变量，代表创业准备度，范围在0到10之间。建议将数据集划分为训练集和测试集，比例为80/20。该数据集可用于建立表格回归基线模型，进行探索性数据分析，以及展示缩放和异常值处理方法。对于金钱相关的特征，建议使用标准缩放器或稳健缩放器，并可以选择性地应用log1p。

创建时间：

2025-09-02

原始信息汇总

Entrepreneurial Readiness (Tabular) 数据集概述

数据集基本信息

数据集名称：Entrepreneurial Readiness (Tabular)
任务类别：表格回归（tabular-regression）
许可证：MIT
数据规模：1K<n<10K

目标变量

目标变量名称：entrepreneurial_readiness
数值范围：0–10（数值型）

特征列

savings_amount
monthly_income
monthly_expenses
monthly_entertainment
sales_skills
risk_level
age
dependents
assets
confidence
difficulty_of_business_idea

数据划分建议

训练集/测试集划分：80/20（train/test）

预期用途

表格回归基线模型（LinearRegression、RandomForestRegressor、XGBoost）
探索性数据分析（EDA）
数据缩放/异常值处理演示

预处理建议

对资金相关特征考虑使用StandardScaler或RobustScaler
可选择性对资金特征应用log1p变换

搜集汇总

数据集介绍

构建方式

在创业研究领域，entrepreneurial-readiness-data通过结构化数据采集构建，涵盖储蓄金额、月收入、月支出等11个关键经济与行为特征。数据集采用数值化编码方式，目标变量为0至10分的创业准备度评分，并通过80/20比例划分训练集与测试集，确保模型验证的可靠性。

特点

该数据集呈现高维度表格特性，包含连续型经济指标与离散型行为评估变量，其中资金类特征存在显著偏态分布，需采用对数变换或标准化处理。样本规模介于1K至10K之间，兼具统计分析需求与计算效率，异常值分布为稳健性建模提供了验证场景。

使用方法

研究者可调用Scikit-learn或XGBoost等框架实施回归建模，优先对资金特征执行StandardScaler标准化处理，必要时采用log1p转换缓解偏态。数据集适用于创业准备度预测、经济行为相关性分析，以及异常值处理与特征缩放的教学演示。

背景与挑战

背景概述

创业准备数据集由研究机构于近年开发，旨在通过量化分析推动创业教育与发展领域的实证研究。该数据集聚焦于创业准备度的多维度评估，核心研究问题在于探索个人经济状况、技能储备与心理特质对创业意向的综合影响。通过引入可量化的评估指标，该数据集为创业生态系统的政策制定与人才培养提供了数据支撑，显著提升了该领域研究的科学性与可操作性。

当前挑战

该数据集需解决创业潜力预测这一复杂回归问题，其挑战在于高维特征间存在的非线性交互与多重共线性，以及经济变量中常见的偏态分布与异常值干扰。构建过程中，研究人员面临数据标准化处理的复杂性，需针对货币类特征设计对数变换与鲁棒缩放策略，同时需平衡样本代表性不足与隐私保护约束带来的数据采集局限。

常用场景

经典使用场景

在创业研究领域，该数据集被广泛用于构建创业准备度预测模型。研究者通过分析储蓄金额、月收入、风险承受能力等11个关键特征，采用线性回归、随机森林回归器等算法，量化评估个体创业潜质。其标准化训练测试划分与特征工程建议，为机器学习提供了可靠的基准实验框架。

解决学术问题

该数据集有效解决了创业研究中的量化评估难题，通过可解释的特征变量与连续型目标值，支持机器学习模型捕捉创业准备度的非线性关系。其意义在于突破了传统问卷分析的局限性，为创业教育效果评估、政策干预研究提供了数据驱动的实证基础，推动了创业经济学与计算社会科学的交叉融合。

衍生相关工作

基于该数据集衍生的经典研究包括：结合SHAP可解释性框架的创业决策因子分析、集成学习驱动的跨文化创业准备度比较研究，以及与时序数据融合的动态创业能力评估模型。这些工作发表于管理信息系统与计算经济学领域顶级会议，形成了创业预测研究的方法论范式。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集