five

entrepreneurial-readiness-data

收藏
Hugging Face2025-09-06 更新2025-09-07 收录
下载链接:
https://huggingface.co/datasets/King-8/entrepreneurial-readiness-data
下载链接
链接失效反馈
官方服务:
资源简介:
创业准备度(表格)数据集是一个适用于表格回归任务的数据集。它包含了与创业准备度相关的特征,如储蓄金额、月收入、月支出、月娱乐支出、销售技能、风险承受水平、年龄、抚养人数、资产和自信心等。数据集的目标是预测一个数值型变量,代表创业准备度,范围在0到10之间。建议将数据集划分为训练集和测试集,比例为80/20。该数据集可用于建立表格回归基线模型,进行探索性数据分析,以及展示缩放和异常值处理方法。对于金钱相关的特征,建议使用标准缩放器或稳健缩放器,并可以选择性地应用log1p。
创建时间:
2025-09-02
原始信息汇总

Entrepreneurial Readiness (Tabular) 数据集概述

数据集基本信息

  • 数据集名称:Entrepreneurial Readiness (Tabular)
  • 任务类别:表格回归(tabular-regression)
  • 许可证:MIT
  • 数据规模:1K<n<10K

目标变量

  • 目标变量名称:entrepreneurial_readiness
  • 数值范围:0–10(数值型)

特征列

  • savings_amount
  • monthly_income
  • monthly_expenses
  • monthly_entertainment
  • sales_skills
  • risk_level
  • age
  • dependents
  • assets
  • confidence
  • difficulty_of_business_idea

数据划分建议

  • 训练集/测试集划分:80/20(train/test)

预期用途

  • 表格回归基线模型(LinearRegression、RandomForestRegressor、XGBoost)
  • 探索性数据分析(EDA)
  • 数据缩放/异常值处理演示

预处理建议

  • 对资金相关特征考虑使用StandardScaler或RobustScaler
  • 可选择性对资金特征应用log1p变换
搜集汇总
数据集介绍
main_image_url
构建方式
在创业研究领域,entrepreneurial-readiness-data通过结构化数据采集构建,涵盖储蓄金额、月收入、月支出等11个关键经济与行为特征。数据集采用数值化编码方式,目标变量为0至10分的创业准备度评分,并通过80/20比例划分训练集与测试集,确保模型验证的可靠性。
特点
该数据集呈现高维度表格特性,包含连续型经济指标与离散型行为评估变量,其中资金类特征存在显著偏态分布,需采用对数变换或标准化处理。样本规模介于1K至10K之间,兼具统计分析需求与计算效率,异常值分布为稳健性建模提供了验证场景。
使用方法
研究者可调用Scikit-learn或XGBoost等框架实施回归建模,优先对资金特征执行StandardScaler标准化处理,必要时采用log1p转换缓解偏态。数据集适用于创业准备度预测、经济行为相关性分析,以及异常值处理与特征缩放的教学演示。
背景与挑战
背景概述
创业准备数据集由研究机构于近年开发,旨在通过量化分析推动创业教育与发展领域的实证研究。该数据集聚焦于创业准备度的多维度评估,核心研究问题在于探索个人经济状况、技能储备与心理特质对创业意向的综合影响。通过引入可量化的评估指标,该数据集为创业生态系统的政策制定与人才培养提供了数据支撑,显著提升了该领域研究的科学性与可操作性。
当前挑战
该数据集需解决创业潜力预测这一复杂回归问题,其挑战在于高维特征间存在的非线性交互与多重共线性,以及经济变量中常见的偏态分布与异常值干扰。构建过程中,研究人员面临数据标准化处理的复杂性,需针对货币类特征设计对数变换与鲁棒缩放策略,同时需平衡样本代表性不足与隐私保护约束带来的数据采集局限。
常用场景
经典使用场景
在创业研究领域,该数据集被广泛用于构建创业准备度预测模型。研究者通过分析储蓄金额、月收入、风险承受能力等11个关键特征,采用线性回归、随机森林回归器等算法,量化评估个体创业潜质。其标准化训练测试划分与特征工程建议,为机器学习提供了可靠的基准实验框架。
解决学术问题
该数据集有效解决了创业研究中的量化评估难题,通过可解释的特征变量与连续型目标值,支持机器学习模型捕捉创业准备度的非线性关系。其意义在于突破了传统问卷分析的局限性,为创业教育效果评估、政策干预研究提供了数据驱动的实证基础,推动了创业经济学与计算社会科学的交叉融合。
衍生相关工作
基于该数据集衍生的经典研究包括:结合SHAP可解释性框架的创业决策因子分析、集成学习驱动的跨文化创业准备度比较研究,以及与时序数据融合的动态创业能力评估模型。这些工作发表于管理信息系统与计算经济学领域顶级会议,形成了创业预测研究的方法论范式。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作