Vivameda/longitudinal_503companies_1950_2020
收藏Hugging Face2026-04-26 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/Vivameda/longitudinal_503companies_1950_2020
下载链接
链接失效反馈官方服务:
资源简介:
Vivameda纵向公司样本(1950–2020年)是一个包含503家公司的纵向面板数据,覆盖1950年至2020年共70年的公司级劳动力演变。该数据集设计作为AI系统推理组织、公司和人力资本随时间变化的基础训练基底。样本包含25,988条公司-年度记录,涵盖34个列,包括劳动力、增长、任期、角色组合、能力组合和信号标志等模式层。数据集中公司按五个深度层级进行策划,以确保样本涵盖模式的每一层,包括从1950年至2020年全程可观察的70年锚定公司(如IBM、Ford、Chevron等),以及现代展示公司(如NVIDIA、SpaceX、Airbnb等)。数据覆盖时代从1950年至2020年,不同时代的数据记录深度不同,从仅面板数据到完整记录。数据集中的NULL值表示当时信号密度不足,而非数据缺失。该数据集适用于预训练和微调推理公司、劳动力或组织演变的模型,评估模型在分布外历史制度下的行为,长时间范围公司面板的时间序列预测,公司-年度粒度的特征工程和嵌入生成,以及跨多十年经济制度的行为模式提取。
license: cc-by-nc-4.0
任务类别:
- 表格分类(tabular-classification)
- 表格回归(tabular-regression)
- 时间序列预测(time-series-forecasting)
- 特征提取(feature-extraction)
语言:
- en
标签:
- 纵向数据(longitudinal)
- 劳动力(workforce)
- 企业(companies)
- 历史数据(historical)
- 面板数据(panel)
- 训练(training)
展示名称:longitudinal_503companies_1950_2020
样本规模类别:
- 10K<n<100K
---
# Vivameda纵向企业样本(1950–2020)
本数据集为包含503家企业的纵向面板数据(longitudinal panel),覆盖70年的企业级劳动力演化历程,旨在作为面向组织、企业与人力资本时序推理的AI系统的基础训练基底。
> 本样本取自Vivameda完整数据集库(涵盖420万家企业、4800万条企业-年度(company-year)观测数据)。
## 本数据集的创建初衷
当下多数针对企业的AI推理系统存在严重的近因偏差:其训练数据仅抓取自近年的网络内容,因此仅能接触到2015年后的平台经济场景。
本样本则让模型接触70年的企业组织演化历程:包括战后扩张、滞胀时代、个人计算机普及期、互联网泡沫的兴衰、2008年金融危机、平台经济时代以及后周期零利率阶段。每条数据记录单家企业在单一年度的可观测状态,包括其规模、增长情况、劳动力结构、能力组合以及计算得到的信号标记。
本数据集为静态数据集,不会进行更新,基于其开展的机器学习训练可获得可复现的结果。
## 样本详情
| 统计项 | 数值 |
|---|---|
| 企业数量 | 503 |
| 企业-年度记录数 | 25,988 |
| 时间范围 | 1950–2020年(共71年) |
| 字段数 | 34 |
| 数据schema层级 | 劳动力、增长、任期、岗位结构、能力组合、信号标记 |
本次503家企业按照五个深度层级进行筛选,以确保样本覆盖schema的所有层级:
| 层级 | 企业数量 | 说明 |
|---|---|---|
| 70年全周期锚定层 | 99 | 可覆盖完整1950–2020年时间范围,包括IBM、福特、雪佛龙等大型历史企业及重要机构。 |
| 60–69年锚定层 | 147 | 战后时代的行业巨头与长期运营的机构。 |
| 50–59年锚定层 | 147 | 20世纪后期崛起的企业。 |
| 40–49年锚定层 | 99 | 1970–1980年代创立的科技与消费类企业。 |
| 现代标杆层 | 11 | 知名新兴企业,包括NVIDIA、SpaceX、Airbnb、Stripe、DoorDash、Palantir、Datadog、Databricks、Coinbase、Shopify、Figma。 |
## 按时代的数据覆盖情况
并非每条记录都包含所有层级的数据。随着时间推移,数据源密度提升,数据覆盖层级也随之叠加至基础面板。`record_depth`(记录深度)字段会标注每条记录包含的可用层级,因此用户可精准筛选至所需的富集程度。
| 时代 | 记录深度 | 记录数 |
|---|---|---|
| 1950–1989年 | 仅基础面板(panel_only) | 11,182 |
| 1990–2009年 | 基础面板+能力层级(panel_plus_capability) | 9,318 |
| 2010–2016年 | 基础面板+能力+岗位层级(panel_plus_capability_plus_role) | 3,476 |
| 2017–2020年 | 完整记录(full_record) | 2,012 |
本数据集中的NULL值具有明确含义:它们代表该时间点的信号密度不足,而非数据缺失,请据此进行筛选。
## 数据schema
### 身份标识字段
- `company_id`:稳定的小写横杠式标识符,为主要关联键
- `company_name`:便于阅读的展示名称
- `company_domain`:已知的企业主域名
- `industry`:包含75个类别的标准化行业分类体系
- `country`:企业总部所在国家
- `year`:观测年份(1950–2020年)
- `sample_tier`:该企业所属的样本筛选层级(仅为本样本独有,在完整数据集库中不存在)
- `record_depth`:本条记录包含的富集数据层级
### 劳动力与任期字段
- `headcount_observed`:观测得到的员工数量,为直接观测值而非企业上报数据
- `company_size_midpoint`、`company_size_bucket`:企业规模汇总指标
- `net_headcount_change`:同比员工数量变化量
- `avg_tenure_years`、`tenure_bucket`:劳动力任期相关指标
### 增长指标字段
- `growth_rate_yoy`、`prev_growth_rate_yoy`:同比增长率
- `growth_is_reliable`:通过内部合理性校验的增长指标
- `growth_bucket`:增长类别标签,涵盖从“快速收缩”到“超高速增长”的多个分类
### 岗位结构(2010–2020年)
- `primary_role_bucket`:主导岗位类别,取自9个标准岗位分类
- `primary_role_pct`:该岗位员工占总劳动力的比例
- `distinct_role_buckets`:当前企业存在的不同岗位类别数量
- `role_diversity_bucket`、`role_coverage_pct`:岗位多样性类别与岗位覆盖占比
### 能力组合(1990–2020年)
- `top_capability_1`、`top_capability_1_pct`(以及排名2、3的对应字段):前三大核心能力及其占比
- `capability_coverage_pct`:能力数据完整度指标
### 信号标记字段
共4个由计算得到的二进制标记,用于捕捉显著的年度动态变化。其定义为确定性规则,可通过原始增长字段复现。
- `early_scaling_flag`:新兴规模下的持续快速增长标记
- `contraction_flag`:从增长转向显著收缩的标记
- `recovery_signal_flag`:从收缩转向增长的复苏标记
- `growth_acceleration_flag`:增长速率超过合理基准并持续提升的标记
机器学习从业者通常更倾向于基于原始增长字段自行计算适配特定业务场景的标记,原始字段始终可用,即使在标记为NULL的记录中也是如此。
## 应用场景
本样本的设计用途包括:
- 针对企业、劳动力或组织演化进行推理的模型的预训练与微调
- 在分布外的历史经济场景中评估模型行为
- 针对长时序企业面板数据的时间序列预测
- 以企业-年度为粒度的特征工程与嵌入向量生成
- 跨数十年经济周期的行为模式提取
## 数据加载
python
import pandas as pd
df = pd.read_csv("vivameda_longitudinal_sample_503companies_1950_2020.csv")
print(df.shape) # (25988, 34)
print(df['year'].min(), df['year'].max()) # 1950, 2020
print(df['company_id'].nunique()) # 503
# Filter to a specific era's record depth
modern = df[df['record_depth'] == 'full_record']
# Or to a specific tier
historical = df[df['sample_tier'] == '70yr_anchor']
## 关于Vivameda
Vivameda维护了覆盖1950–2020年的纵向企业数据集库,包含420万家企业、4800万条企业-年度(company-year)记录,以及岗位分布、能力分类与任期层级数据。完整数据集库可用于组织推理研究、AI系统训练数据,以及针对风投、信贷与战略场景的预测分析。
多年来对冲基金与量化基金付费使用的数据集,Vivameda现已将其作为训练基底开放给AI实验室与研究人员。
## 许可证说明
本样本采用**CC-BY-NC-4.0**许可证发布,可在注明来源的前提下免费用于研究、学术与非商业用途。完整数据集库的商业授权可直接联系Vivameda获取。
## 联系方式
- 官网:[vivameda.com](https://vivameda.com)
- 邮箱:data@vivameda.com
- 预约20分钟沟通会议:[calendly.com/oli-nold/data-discussion-call](https://calendly.com/oli-nold/data-discussion-call)
## 引用格式
若在研究中使用本数据集,请引用如下:
> Vivameda Longitudinal Company Sample (1950–2020), v1.0. Vivameda Ltd, April 2026.
提供机构:
Vivameda



