ycbench

Hugging Face2026-04-06 更新2026-04-07 收录

下载链接：

https://huggingface.co/datasets/benstaf/ycbench

下载链接

链接失效反馈

官方服务：

资源简介：

YCbench 是一个用于预测 Y Combinator 批次中初创公司短期表现的实时基准数据集。该数据集由 Mostapha Benhenda 在论文《YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches》中提出，专注于 W26 批次的 196 家公司。数据集提供了结构化的公共信号，用于评估预测哪些初创公司将在短期内（直到 Demo Day）超越同行的模型。性能通过结合牵引信号和网络可见性的“Pre-Demo Day Score”来衡量。数据集包含多个配置：`startups`（基本初创公司信息）、`traction`（牵引指标）、`scores`（预演示日分数和速度）、`mentions`（Google/网络提及计数）和 `mentions_early`（早期提及数据）。数据集适用于表格分类和文本分类任务，规模小于 1K 样本。

创建时间：

2026-04-02

原始信息汇总

YCbench数据集概述

数据集基本信息

数据集名称：YCbench
数据集标识：ycbench
主要语言：英语 (en)
许可证：MIT
标签：金融、初创公司、Y Combinator、基准测试、表格数据、预测、风险投资
任务类别：表格分类、文本分类
数据规模：小于1K样本 (n<1K)

数据集简介

YCbench是一个用于预测Y Combinator批次内初创公司短期（截止至Demo Day）表现是否优于同批其他公司的实时基准测试数据集。该数据集在论文《YC Bench: a Live Benchmark for Forecasting Startup Outperformance in Y Combinator Batches》中被提出。

数据集内容与结构

数据集专注于Y Combinator的W26批次（包含196家公司），提供了结构化的公开信号。表现通过一个结合了增长信号和网络可见度的Pre-Demo Day Score来衡量。

数据集包含以下配置（configs），每个配置对应一个CSV文件：

配置名称	数据文件	描述
`startups`	`yc_w26_startups.csv`	初创公司基本信息
`traction`	`yc_w26_traction.csv`	增长指标
`scores`	`yc_w26_pre_demo_scores.csv`	Demo Day前的得分与速度
`mentions`	`yc_mentions.csv`	Google/网络提及次数
`mentions_early`	`yc_mentions_early.csv`	早期阶段提及数据

数据加载方式

使用`datasets`库加载

python from datasets import load_dataset startups = load_dataset("benstaf/ycbench", "startups") scores = load_dataset("benstaf/ycbench", "scores") mentions = load_dataset("benstaf/ycbench", "mentions")

使用`pandas`直接加载（简易方式）

python import pandas as pd df = pd.read_csv("hf://datasets/benstaf/ycbench/yc_w26_pre_demo_scores.csv")

相关资源链接

论文：https://huggingface.co/papers/2604.02378
实时基准测试网站：https://ycbench.com/
GitHub仓库：https://github.com/benstaf/ycbench

搜集汇总

数据集介绍

构建方式

在创业投资领域，精准预测初创企业的短期表现是风险资本决策的核心挑战。YCbench数据集以Y Combinator W26批次的196家公司为研究对象，通过整合公开的结构化信号构建而成。其构建过程系统性地采集了初创企业的基本信息、增长指标、网络可见度数据以及预演示日评分，这些数据来源于可公开获取的渠道，并经过标准化处理，形成了五个相互关联的配置模块，为量化分析提供了坚实基础。

特点

该数据集的核心特点在于其动态基准属性，专为评估预测模型在真实创业生态中的效能而设计。它聚焦于短期内的同业超越预测，绩效衡量采用了结合增长信号与网络能见度的预演示日综合评分体系。数据集规模精炼，包含多维度的表格与文本分类特征，涵盖了从基础信息到早期提及的完整数据轨迹，为研究创业公司短期表现预测提供了独特且连贯的观测窗口。

使用方法

为便于学术研究与模型开发，数据集可通过Hugging Face的`datasets`库或`pandas`工具直接加载。用户可根据分析需求，灵活调用`startups`、`traction`、`scores`等特定配置模块，获取相应的结构化表格数据。这些数据可直接用于构建分类或预测模型，以检验关于初创企业短期脱颖而出的各类假设，其配套的在线基准平台进一步支持模型性能的持续评估与比较。

背景与挑战

背景概述

在风险投资与初创企业评估领域，精准预测早期公司的成长潜力一直是核心研究议题。YCbench数据集由Mostapha Benhenda于2024年提出，旨在为Y Combinator孵化器内的初创企业提供一套动态的基准评估工具。该数据集聚焦于W26批次的196家公司，通过整合公司基本信息、市场牵引力指标、网络曝光度及预演示日评分等多维度信号，构建了一个结构化预测框架。其核心研究问题在于利用公开可得的时序数据，建模并预测哪些初创企业能在短期内超越同批次竞争对手，从而为投资决策与学术研究提供量化依据，推动了金融科技与数据驱动型投资分析领域的发展。

当前挑战

YCbench数据集致力于解决初创企业短期绩效预测这一复杂领域问题，其挑战在于初创公司成功的影响因素高度多维且动态变化，如何从有限的公开信号中提取稳健预测特征是一大难点。数据构建过程中，研究者需克服多源异构数据的采集与对齐困难，例如将初创公司的基本资料、动态市场表现与网络声量等时序信息进行有效整合。同时，确保数据在快速变化的商业环境中的时效性与一致性，以及设计能够真实反映企业短期超常表现的复合评分指标，均构成了数据集构建的核心挑战。

常用场景

经典使用场景

在风险投资与初创企业评估领域，YCbench数据集为研究者提供了一个标准化的基准平台，用于预测Y Combinator批次中初创企业的短期表现。该数据集整合了初创企业的基本信息、增长指标、网络提及量及预演示日评分，使得机器学习模型能够基于结构化信号进行训练与验证。经典使用场景涉及构建分类或回归模型，以识别哪些初创企业将在批次内脱颖而出，从而辅助投资决策与学术探索。

实际应用

在实际应用中，YCbench数据集被风险投资机构、加速器及金融科技公司用于优化投资筛选流程。基于该数据集构建的预测模型可以帮助投资者识别高潜力初创企业，降低投资风险，并提升投资组合的回报率。此外，初创企业自身也可利用这些指标进行对标分析，以调整市场策略，增强竞争力，体现了数据集在商业决策中的直接价值。

衍生相关工作

围绕YCbench数据集，已衍生出多项经典研究工作，包括基于机器学习的初创企业评分系统、网络提及与增长关联性分析，以及风险预测算法的比较研究。这些工作不仅扩展了数据集的用途，还推动了金融信息学与创业生态系统的交叉研究，为后续更复杂的预测模型和基准测试提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集