startup-Investments-analysis
收藏Hugging Face2026-04-05 更新2026-04-06 收录
下载链接:
https://huggingface.co/datasets/lia-prop13/startup-Investments-analysis
下载链接
链接失效反馈官方服务:
资源简介:
该数据集名为'StartUp Investments EDA',旨在通过探索性数据分析(EDA)研究初创企业的投资数据,以预测其生存和发展的关键因素。数据集来源于Crunchbase,并通过Kaggle获取,涵盖了全球初创企业的财务指标、投资轮次、市场类别等关键信息。原始数据集包含约54,000行和39个特征,经过清洗后保留4,757行和23个特征。目标变量为公司状态,二元化为1(被收购)和0(关闭)。数据集经过严格的预处理,包括去重、处理缺失值、特征选择和异常值处理,以确保数据质量和模型可靠性。适用于表格分类任务,特别是初创企业生存预测和投资分析。
创建时间:
2026-04-05
原始信息汇总
数据集概述
基本信息
- 数据集名称: StartUp Investments EDA
- 托管地址: https://huggingface.co/datasets/lia-prop13/startup-Investments-analysis
- 许可证: MIT
- 任务类别: 表格分类
- 数据规模: 1K<n<10K
- 数据文件:
data.csv(训练集)
来源与构成
- 原始来源: 数据源自Crunchbase,并通过Kaggle获取。
- 原始数据: 约54,000行,39个特征。
- 清洗后数据: 4,757行,23个特征。
- 目标变量:
status,二元数值标签(1表示“被收购”,0表示“关闭”)。 - 类别分布: 被收购(62%)与关闭(38%),分布相对平衡。
- 采样策略: 移除了所有状态为“运营中”的记录,以专注于已确定的退出事件(收购或关闭),避免目标泄漏和模糊性。
数据特征
数据集包含23个特征,可分为以下几类:
核心属性
market: 初创公司所属市场/行业。country_code: 国家代码。founded_year: 创立年份。
财务汇总指标
funding_total_usd: 以美元计的总融资额。funding_rounds: 融资轮次总数。
投资阶段(具体轮次)
round_A至round_H: 各轮风险投资的具体融资额。
早期与替代融资
seed: 种子轮融资。angel: 天使轮融资。equity_crowdfunding: 股权众筹。product_crowdfunding: 产品众筹。
专项融资
debt_financing: 债务融资。grant: 补助金。private_equity: 私募股权。convertible_note: 可转换债券。unclassified_funding: 未分类的融资额(由总融资额减去各分类轮次融资额计算得出)。
数据预处理与清洗
-
结构清洗与特征选择:
- 删除4,855条重复记录。
- 移除状态为“运营中”或空值的记录,专注于“收购”与“关闭”两类。
- 删除16个无关或冗余的特征(如名称、主页URL、具体地理位置、模糊日期、超出研究范围的后期财务指标等),最终保留23个高影响力特征。
-
缺失值处理:
- 对
founded_year(21.1%缺失)使用中位数进行插补。 - 删除
market(3.67%缺失)或country_code(9.98%缺失)为空的记录,以保持核心身份特征的完整性。
- 对
-
数据完整性审计与格式化:
- 进行了财务对账审计,确保报告的
funding_rounds与分类财务数据列的数量逻辑一致。 - 通过创建
unclassified_funding特征来隔离未分类的投资,并移除了658条总融资额为0的“财务幽灵”记录。 - 标准化数值特征的数据类型,清理分类字符串中的隐藏空格和特殊字符。
- 重新组织数据集结构以提高可解释性。
- 进行了财务对账审计,确保报告的
-
异常值处理:
- 时间过滤:移除了1990年之前创立的记录(约84行),使分析更符合现代风险投资和科技领域背景。
- 保留财务极端值:
funding_total_usd和funding_rounds中的极端异常值(如“独角兽”公司)被有意保留,因为这些是初创企业生态中遵循幂律分布的关键成功信号。
描述性统计与关键洞察
- 创立年份: 中位数为2007年,范围在1990年至2014年之间。
- 总融资额: 均值约为1834万美元,中位数为500万美元,存在严重的右偏分布,符合风险投资的“幂律”特征。
- 融资轮次: 均值为1.95,中位数为1,75%分位数为2,表明大多数样本处于早中期融资周期。
- 市场与地理集中度: “Software”(软件)是最常见的市场类别(599次),"USA"(美国)是最常见的国家代码(3618次),数据集中于最活跃的科技生态中心。
- 特征相关性:
funding_rounds与收购状态呈最高正相关(0.22),表明获得后续融资的能力与退出潜力关联更紧密。founded_year与收购状态呈负相关(-0.24),反映了“生存偏差”:成立更早的公司有更长的历史窗口达成收购。funding_total_usd与unclassified_funding高度相关(0.85),证实了后者在数据集架构中作为平衡特征的作用。
探索性数据分析要点
- 目标分布: 清洗后的数据集中,被收购初创公司占比62%,关闭的占比38%,分布相对平衡。
- 总融资额的影响: 分析探讨了总投资额对初创公司被收购可能性的影响(具体图表链接未在提供的README内容中完整给出)。
搜集汇总
数据集介绍

构建方式
本数据集以Crunchbase平台提供的初创企业投资数据为基础,通过系统性的数据清洗与重构流程构建而成。原始数据包含约54,000条记录与39个特征,经过严格的去重处理,剔除了4,855条重复条目。为确保预测目标的明确性,研究移除了所有处于运营状态的企业记录,仅保留已明确退出市场的企业——即被收购或关闭的案例,从而形成了聚焦于最终结局的样本。在此基础上,通过维度约简移除了16个低预测信号的特征,并针对缺失值采用中位数插补或记录删除等策略进行处理。最后,通过财务逻辑一致性审计与异常值保留原则,得到了包含4,757条记录、23个特征的高质量平衡数据集。
特点
该数据集的核心特点在于其高度结构化的财务与运营信息,涵盖了从种子轮到H轮的多阶段投资金额、债务融资、补助金及股权众筹等多样化资金来源。数据经过精心清洗,确保了特征之间逻辑一致性,例如通过资金总额重构出未分类投资字段,消除了原有汇总数据中的噪声。样本聚焦于已确定退出状态的企业,其中收购案例占比62%,关闭案例占38%,形成了相对平衡的二元分类目标。此外,数据保留了符合行业幂律分布的极端财务异常值,如高融资总额与多轮次融资记录,这些恰恰是识别高成长性企业的关键信号,增强了数据集在真实风险投资环境中的表征能力。
使用方法
该数据集适用于表格分类任务,旨在预测初创企业是否会被收购。使用者可基于23个精选特征,包括市场领域、国家代码、成立年份、各轮投资金额及多种融资工具,构建机器学习模型以探索企业生存的关键驱动因素。在建模前,建议进行探索性数据分析,深入观察特征分布与相关性,尤其关注财务特征的偏态分布。数据集已完成了预处理,可直接用于模型训练,但需注意分类变量如市场与国家代码需进行适当编码。鉴于数据集中包含显著的类别不平衡与极端值,采用鲁棒的评估指标与正则化技术将有助于提升模型泛化性能。
背景与挑战
背景概述
初创企业投资分析数据集(startup-Investments-analysis)由研究团队基于Crunchbase平台数据构建,旨在深入探究风险投资生态中的关键成功因素。该数据集聚焦于初创企业的生存轨迹,通过系统梳理历史融资记录、投资轮次及市场分类信息,核心研究问题在于识别驱动企业最终被收购而非关闭的核心预测变量。其创建源于对创业动态量化评估的迫切需求,通过将企业状态二元化为“收购”与“关闭”,为投资决策与创业研究提供了高信度的实证基础,显著推动了创业金融与数据科学领域的交叉融合。
当前挑战
该数据集面临的挑战主要体现在问题定义与数据构建两个维度。在领域问题层面,初创企业生存预测本身具有高度复杂性,企业成功受多维动态因素交织影响,如市场波动、团队能力与技术颠覆性等,仅依靠历史融资数据难以完全捕捉其非线性演化路径。在构建过程中,原始数据存在大量缺失值、重复记录及逻辑不一致问题,例如融资轮次与金额统计失配,需通过多阶段审计与重构才能确保内部一致性;同时,处理极端值需平衡统计稳健性与现实意义,保留反映行业幂律分布的高融资异常值,以避免模型丢失关键成功信号。
常用场景
经典使用场景
在创业投资与风险资本研究领域,该数据集为探索初创企业生存轨迹提供了关键实证基础。研究者通过分析涵盖融资轮次、市场类别及地理分布等多维度特征,构建预测模型以识别企业最终被收购或关闭的核心驱动因素。这一场景典型地应用于机器学习分类任务,旨在从历史投资数据中提炼规律,为投资决策提供数据驱动的见解。
实际应用
在实际应用中,该数据集为风险投资机构、孵化器及政策制定者提供了评估工具。投资团队可借助基于该数据训练的模型,筛查潜在投资标的,优化投资组合策略;政策部门则能据此分析区域创业活力与融资环境,设计更具针对性的创新支持政策。这些应用显著提升了资源配置的精准性与市场洞察的时效性。
衍生相关工作
围绕该数据集衍生的经典工作主要集中在预测模型构建与特征工程创新。例如,研究通过集成学习方法提升收购预测的准确性,或利用可解释性人工智能技术揭示关键融资阶段的影响权重。此外,亦有学者将其与宏观经济指标融合,拓展了创业生态系统跨周期稳健性评估的研究边界。
以上内容由遇见数据集搜集并总结生成



