entrepreneur-readiness-datasett

Hugging Face2025-09-11 更新2025-09-12 收录

下载链接：

https://huggingface.co/datasets/Lazabriellholland/entrepreneur-readiness-datasett

下载链接

链接失效反馈

官方服务：

资源简介：

企业家准备度数据集（从Excel转换）是一个表格数据集，其中包含与企业家准备度相关的数值特征，如年龄、风险水平、销售技能、依赖人数、月收入、月账单、娱乐支出、储蓄金额、资产、信心以及商业难度等。此外，还包括一个回归目标的标签，一个简短的自然语言描述，以及时间戳。

创建时间：

2025-08-29

原始信息汇总

Entrepreneur Readiness Dataset (From Excel) 数据集概述

基本信息

数据集名称: entrepreneur-readiness-datasett
许可证: MIT
任务类别: 表格回归
语言: 英语
数据规模: <1K

数据内容

模态: 表格数据（包含可选的文本字段notes）
数据分割: train
数据格式: JSONL
数据位置: data/train.jsonl
模式文件: schema.json

特征说明

scenario (字典类型): 数值特征
- 包含字段: age, risk_level, sales_skills, dependents
- 包含字段: monthly_income, monthly_bills, entertainment_spending
- 包含字段: savings_amount, assets, confidence, business_difficulty
label (浮点型): entrepreneurial_readiness - 回归目标
notes (字符串型): 简要的自然语言摘要
timestamp (int64型): UNIX时间戳（秒）

数据加载方式

使用Hugging Face Datasets库加载： python from datasets import load_dataset ds = load_dataset("json", data_files="data/train.jsonl", split="train") ds[0]

搜集汇总

数据集介绍

构建方式

在创业研究领域，数据质量直接影响预测模型的可靠性。本数据集通过结构化转换流程构建，原始数据源自用户提供的Excel表格，经标准化处理转化为符合机器学习要求的JSONL格式。构建过程中保留了数值特征与文本注释的完整映射，并严格遵循回归任务的数据规范，确保了特征字段与标签值的精确对应。

特点

该数据集呈现多维度创业准备度评估特征，涵盖年龄、风险承受能力、销售技能等12个核心数值指标，并辅以自然语言注释字段增强数据可解释性。其显著特点在于融合结构化数值与非结构化文本模态，同时包含时间戳元数据支持时序分析。数据规模虽不足千条，但特征密度高且标签连续分布，适合精细化回归建模。

使用方法

使用者可通过HuggingFace Datasets库快速加载数据，指定JSON格式解析器读取train.jsonl文件即可获取完整数据集。每个样本包含字典结构的特征集和浮点型标签值，可直接投入线性回归、决策树等算法进行训练。文本注释字段可供多模态模型融合分析，时间戳则支持跨周期动态验证。

背景与挑战

背景概述

创业准备研究作为创业学与行为经济学的交叉领域，旨在通过量化分析预测个体创业倾向与成功概率。该数据集由匿名研究团队于现代数字化创业浪潮背景下创建，聚焦于多维度个人特征与经济指标的关联性分析，通过采集年龄、风险承受能力、财务指标及心理特质等结构化数据，构建回归模型以评估创业准备度。其核心价值在于为创业生态研究提供实证基础，推动创业教育从经验导向向数据驱动转型，对创业政策制定与风险评估模型发展具有显著影响力。

当前挑战

该数据集需解决创业潜力预测这一复杂回归问题，其挑战在于如何整合异质性特征（如心理指标与财务数据）并建立稳健的因果推断模型。构建过程中面临多源数据标准化难题，包括Excel原始数据的类型转换、缺失值处理以及文本注释（notes字段）的语义对齐。时间戳字段的跨平台一致性维护与小型样本量（<1K）下的统计显著性保障，亦对数据质量与模型泛化能力构成实质性考验。

常用场景

经典使用场景

在创业研究领域，该数据集为量化评估个体创业准备度提供了关键数据支撑。研究者通常利用其结构化特征，如风险承受能力、财务状况和商业技能等数值指标，通过回归模型预测创业准备水平，进而分析影响创业决策的核心因素。

解决学术问题

该数据集有效解决了创业研究中缺乏标准化量化工具的难题，为实证分析提供了多维度指标。通过整合经济能力与心理特质数据，它支持研究者探索创业意愿的形成机制，并验证创业教育干预措施的有效性，显著提升了该领域研究的科学性与可重复性。

衍生相关工作

基于该数据集衍生的经典研究包括创业风险预测模型、多模态创业能力评估框架，以及结合文本注释的混合分析模型。这些工作进一步推动了创业生态系统的智能化评估工具发展，并为跨学科研究提供了数据融合范例。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集