five

PHBench

收藏
github2026-05-12 更新2026-05-13 收录
下载链接:
https://github.com/ihlamury/phbench
下载链接
链接失效反馈
官方服务:
资源简介:
PHBench是一个用于预测Product Hunt启动是否会在18个月内获得A轮融资的开放基准数据集。它涵盖了七年(2019-2025年)内的67,292个特色启动项,并通过Crunchbase域名链接匹配到528个已验证的A轮融资结果。数据集包含61个工程特征,用于训练和评估预测模型。

PHBench is an open benchmark dataset for predicting whether a startup featured on Product Hunt will secure Series A funding within 18 months. It covers 67,292 featured startups over the seven-year period from 2019 to 2025, and is matched to 528 verified Series A funding outcomes via Crunchbase domain links. The dataset includes 61 engineered features for training and evaluating predictive models.
创建时间:
2026-05-12
原始信息汇总

数据集概述

PHBench 是一个开放的基准测试数据集,旨在预测一个 Product Hunt 产品发布是否会在 18 个月内 获得 Series A(A 轮) 融资。

核心数据

  • 规模:涵盖 2019 年至 2025 年间共 67,292 个入选的 Product Hunt 发布。
  • 标签:通过 Crunchbase 域名关联,匹配到 528 个经核实的 Series A 融资事件。
  • 特征:每个发布提供 61 个工程化特征。
  • 正样本率:仅为 0.78%(约每 127 个中 1 个)。

数据划分

  • 训练集:47,071 条样本
  • 验证集:6,753 条样本
  • 测试集:13,468 条样本(标签不公开)

评估指标

指标 描述
F₀.₅(主要指标) 偏重精确率的调和平均值,用于排行榜排名
AP 平均精确率,衡量排序质量
AUC-ROC 区分正负样本的整体性能
P@50 前 50 个预测结果的精确率
P@100 前 100 个预测结果的精确率

基准模型表现

模型 F₀.₅(验证集) AP(验证集) F₀.₅(测试集) AP(测试集)
Top-3 集成(冠军) 0.284 0.126 0.097 0.037
逻辑回归基线 0.127 0.047 0.045 0.024
Gemini 3 Flash (LLM) 0.129 0.034
随机 0.000 0.008

冠军模型在测试集上相比随机实现了 4.7 倍的提升

使用方式

  1. 获取数据:访问 Hugging Face 数据集页面 https://huggingface.co/datasets/ihlamury/phbench 申请访问权限。
  2. 安装依赖:运行 pip install -r requirements.txt
  3. 特征工程:使用 phbench.features 模块中的 engineer_features 函数。
  4. 训练与提交:运行 python phbench/baseline.py 训练基线模型,并将预测结果 CSV 通过邮件 benchmark@vela.partners 提交以参与排行榜。

引用

bibtex @article{ihlamur2026phbench, title = {PHBench: A Benchmark for Predicting Startup Series A Funding from Product Hunt Launch Signals}, author = {Ihlamur, Yagiz and Griffin, Ben and Chen, Rick}, journal = {arXiv preprint arXiv:2605.02974}, year = {2026}, url = {https://arxiv.org/abs/2605.02974}, }

许可协议

本数据集采用 CC BY 4.0 许可。数据集不可用于针对或招揽特定公司或个人。

搜集汇总
数据集介绍
main_image_url
构建方式
PHBench是一个用于预测创业公司从Product Hunt发布到完成Series A融资的公开基准数据集。其构建过程整合了2019至2025年间Product Hunt平台上的67,292个特色发布记录,并通过Crunchbase的域名映射技术,精准匹配出528个在发布后18个月内成功获得Series A融资的案例。数据集的构建不仅涵盖了基础的发布信息,还通过复杂的特征工程,对每个发布条目提取了61个维度的手工设计特征,并利用GraphQL API数据收集、URL解析以及评论与排名信息丰富等步骤,形成了一个结构严谨、信息丰富的基准数据集。最终,数据按照训练(47,071条)、验证(6,753条)和测试(13,468条,标签保密)集进行划分,为下游任务提供了标准化的评估框架。
特点
PHBench数据集的显著特点在于其精确的标签定义与极低的阳性率(0.78%),即每127次发布中仅约1次最终实现Series A融资,这高度模拟了现实世界中早期投资的高不确定性环境。数据集不仅提供了丰富的多元特征,包括发布内容、用户互动、每日/每周/每月排名以及经解析的网站信息等,还引入了针对性的评估指标体系,以F₀.₅分数作为主要排名指标,强调精准率在高度不平衡场景下的重要性。此外,冠军模型在测试集上相对于随机猜测实现了4.7倍的性能提升,验证了该基准对于区分高潜力创业信号的有效性与挑战性。
使用方法
使用PHBench数据集可通过清晰的流程启动。首先,在HuggingFace上(huggingface.co/datasets/ihlamury/phbench)申请数据访问权限,并安装项目提供的依赖包。接着,利用`phbench.features`模块中的`engineer_features`函数对公开的CSV训练数据进行特征提取,生成61维特征矩阵。然后,运行基线训练脚本(`phbench/baseline.py`)以快速建立逻辑回归等模型,并利用`evaluate_submission`函数计算包括F₀.₅、AP、AUC-ROC、P@50和P@100在内的五项标准指标来验证模型性能。最终,可将预测结果提交至指定邮箱(benchmark@vela.partners),系统将通过私密测试标签进行评分并更新在线排行榜,便于研究者进行公平的横向比较。
背景与挑战
背景概述
PHBench是由Yagiz Ihlamur、Ben Griffin和Rick Chen等人于2026年构建的一个开源基准数据集,用于预测初创公司在其Product Hunt发布后18个月内能否获得A轮融资。该数据集覆盖了2019至2025年间67,292个精选产品发布,并通过Crunchbase的域名链接验证了528个A轮融资事件。其核心研究问题在于从产品发布信号中挖掘早期融资潜力的可预测性,为初创生态系统和风险投资领域提供了独特的实证基础。PHBench的出现填补了传统融资预测多依赖于财务数据而忽略产品市场信号的空白,引起了计算金融与创业研究领域的广泛关注,成为评估模型在极不平衡数据上表现的重要标杆。
当前挑战
PHBench所面临的挑战首先源于领域问题的极端不平衡性:正样本比例仅为0.78%(每127个发布中仅1个获得A轮融资),使得模型在区分微弱信号时极易陷入假阳性陷阱。其次,构建过程中的挑战在于跨平台数据对齐的复杂性——需将Product Hunt的非结构化发布数据与Crunchbase的融资记录进行精确的域名匹配,过程中面临URL解析误差、时间窗口对齐模糊以及稀疏标注等问题。此外,数据集的公开使用被严格限制,禁止用于针对特定公司或个人的营销行为,这进一步增加了在隐私保护和学术开放性之间寻求平衡的难度。
常用场景
经典使用场景
PHBench数据集的核心用途在于构建和评估能够从Product Hunt产品发布信号中预测初创公司是否在18个月内获得A轮融资的机器学习模型。该数据集整合了2019年至2025年间67,292个精选产品发布记录,并与Crunchbase数据关联,精确标注了528个已确认的A轮融资事件。研究者可利用其提供的61个工程化特征(涵盖发布表现、社区互动、排名变动等多维度信息)训练分类模型,并通过官方评估协议(包括F₀.₅、AP、AUC-ROC等指标)进行标准化评测。该基准还配备了完整的数据处理流水线和基线模型代码,便于研究人员快速复现与迭代。
衍生相关工作
PHBench的发布催生了多个方向的相关研究。在方法论层面,研究者基于该基准探索了针对极端不平衡数据的采样策略(如SMOTE变体)与代价敏感学习的优化效果;在特征工程领域,出现了融合产品描述文本的NLP嵌入(如BERTopic主题建模、情感分析)与时间序列特征(如排名的短期波动率)的增强方案。2026年NeurIPS会议中,有工作将PHBench与公司财务指标联合建模,验证了产品信号与传统融资数据互补的协同效应。此外,该数据集还促进了因果推断领域的实证研究,例如利用倾向性得分匹配探究Product Hunt的Featured推荐机制对融资结果的因果效应,推动了早期创业预测从相关性分析向因果推断的过渡。
数据集最近研究
最新研究方向
PHBench聚焦于利用Product Hunt产品发布信号预测初创企业能否在18个月内获得A轮融资,这一研究方向巧妙地将创业融资预测与社交媒体早期指标相结合。在创投生态日益数据化的背景下,该数据集构建了涵盖67,292条产品发布记录及528个已验证融资事件的基准,通过61项工程化特征和冠军模型4.7倍于随机基线的性能提升,揭示了产品热度、社区互动与后续资本回报之间的潜在关联。这项工作不仅填补了公开创业融资预测基准的空白,更推动了机器学习在早期投资信号挖掘领域的标准化评估,为风险投资机构的数据驱动决策提供了可复现的验证框架。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作