technology-mna-analysis-dana
收藏Hugging Face2025-11-13 更新2025-11-14 收录
下载链接:
https://huggingface.co/datasets/danadvash/technology-mna-analysis-dana
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了来自全球科技行业的超过1600个并购案例,记录了收购公司、被收购公司、交易日期、交易状态和交易价格等信息,可用于分析科技行业并购活动随时间的变化趋势。
创建时间:
2025-11-10
原始信息汇总
数据集概述
基本信息
- 数据集名称:Technology Mergers and Acquisitions – EDA Dana Dvash
- 数据来源:Kaggle – Technology Mergers & Acquisitions
- 数据规模:约1,600行,11列
- 关键特征:收购公司、被收购公司、日期、交易状态和价格
- 主要变量:Price_MUSD(以百万美元计的交易价值)
数据清洗
- 主要步骤:
- 将所有价格转换为数值型美元(修复M/B格式)
- 删除重复、无效或缺失记录以及损坏链接
- 过滤状态不明确或非最终状态的交易
- 删除非常小的交易(<1000万美元)
- 清洗前后:
- 清洗前行数:1,636
- 清洗后行数:1,519
异常值处理
- 使用IQR方法检测到63个异常交易
- 保留这些异常值,因为它们代表真实的大规模收购(例如LinkedIn、WhatsApp)
描述性统计
- 交易价格严重右偏:
- 平均值:约12亿美元
- 中位数:约2.5亿美元
- 大多数交易低于50亿美元,但少数超过400亿美元
- 交易价值与年份之间相关性较弱——大规模收购零星发生
可视化洞察
-
交易价格分布:大多数交易集中在50亿美元以下,少数主要异常值推动总市值

-
时间趋势:2014-2016年和2020-2021年出现峰值,反映创新浪潮(云计算、人工智能、社交媒体)

-
年度披露价格:2010年后透明度呈轻微上升趋势,但不一致

-
主要收购方:Google、Microsoft、Apple、IBM和Cisco主导全球科技并购

-
相关性热图:变量之间关系较弱,表明交易价值更多取决于公司战略而非时间

主要结论
- 并购活动遵循主要技术趋势
- 大型公司主导收购
- 大多数交易规模适中,罕见十亿美元级别的例外
- 数据集现已清理干净,可用于进一步的金融或预测分析
搜集汇总
数据集介绍

构建方式
在科技并购研究领域,该数据集源自Kaggle平台收录的全球技术企业并购交易记录,原始数据包含1,636条交易信息。通过系统性的数据清洗流程,研究者将交易金额统一转换为以百万美元为单位的数值格式,剔除了重复条目、无效记录及状态未明确的交易。针对交易规模,数据集保留了具有行业代表性的异常值案例,同时过滤了金额低于1,000万美元的小型交易,最终形成包含1,519条标准化记录的核心数据集。
特点
该数据集呈现出科技并购交易特有的分布特征,其核心数值字段交易金额呈现显著右偏分布,均值约12亿美元而中位数仅为2.5亿美元。数据时序跨度揭示了2014-2016年与2020-2021年两轮并购高峰,对应云计算与人工智能等技术浪潮。尽管涵盖谷歌、微软等科技巨头的重大收购案例,但交易金额与年份的关联性较弱,印证了战略并购决策的离散性特征。
使用方法
研究者可基于该数据集开展多维度的科技产业分析,通过交易时间序列观测技术演进周期,利用收购方字段识别行业整合趋势。在量化研究方面,可结合交易金额与行业分类构建预测模型,或通过相关性分析探索并购决策驱动因素。数据清洗后的标准化结构支持直接导入统计工具,其保留的异常值案例尤为适合研究颠覆性技术并购的规模效应。
背景与挑战
背景概述
在数字经济蓬勃发展的时代背景下,技术并购作为企业战略布局与产业整合的重要途径,持续推动着全球科技生态的演进。technology-mna-analysis-dana数据集由研究者Dana Dvash基于Kaggle平台原始数据构建,系统收录了2010至2021年间全球科技领域逾1600起并购交易记录。该数据集聚焦于并购交易价值动态、主要收购方行为模式及产业演变规律三大核心问题,通过量化分析揭示了云计算、人工智能等技术浪潮与资本流动的关联性,为科技产业战略研究提供了关键数据支撑。
当前挑战
技术并购研究领域长期面临交易价值评估标准不统一、数据透明度不足等固有难题。本数据集构建过程中需攻克多重挑战:原始数据存在货币单位混杂(M/B格式并存)、交易状态模糊及重复记录等质量问题;并购价格呈现典型右偏分布,均值与中位数差异显著,需通过IQR方法甄别真实极端值;时序分析中弱相关性特征凸显并购决策的复杂性,其价值波动更取决于企业战略而非时间维度。这些挑战共同构成了科技并购量化研究的核心瓶颈。
常用场景
经典使用场景
在科技并购研究领域,该数据集为分析全球技术企业并购活动提供了标准化基准。研究者通过时间序列分析揭示并购浪潮与技术创新周期的关联,例如2014-2016年云计算与社交媒体的并购高峰,以及2020-2021年人工智能驱动的交易活跃期。其核心价值在于通过清洗后的交易价格、收购方特征等结构化字段,支撑并购动因与行业演变规律的量化研究。
解决学术问题
该数据集有效解决了科技产业研究中并购规模分布不明确、长期趋势难以追踪的学术难题。通过修正货币单位与剔除无效记录,建立了可靠的并购价值评估体系,其右偏分布特征(均值12亿美元、中位数2.5亿美元)揭示了科技行业并购的典型模式——少数巨额交易与大量中小规模交易并存,为产业集中度理论与企业成长路径研究提供了实证基础。
衍生相关工作
基于此数据集衍生的经典研究包括科技并购价值创造效应分析、头部企业生态扩张策略建模等方向。学者通过关联专利数据与并购记录,验证了技术互补性对交易溢价的影响;另有研究结合股价波动构建预测模型,探索并购公告的市场反应规律,推动了企业并购理论与数字经济学研究的深度融合。
以上内容由遇见数据集搜集并总结生成



