Substack Author Performance Data

github2026-02-28 更新2026-03-01 收录

下载链接：

https://github.com/6m1w/substack_performance_data

下载链接

链接失效反馈

官方服务：

资源简介：

Substack金融新闻作者绩效的公开分析数据集，包含胜率、长期和短期回报、综合评分等详细绩效指标，以及每位作者的详细页面和个股调用分析。

Publicly available analytical dataset for the performance of Substack financial news authors, which includes detailed performance metrics such as win rates, long-term and short-term returns, and comprehensive scores, as well as detailed author profiles and individual stock call analysis for each author.

创建时间：

2026-02-28

原始信息汇总

Substack Author Performance Data 数据集概述

数据集简介

这是一个关于Substack金融通讯作者业绩分析的公开数据集。

数据内容

数据集包含一个核心文件：substack_performance.md。该文件提供了全面的业绩分析，涵盖以下指标：

胜率：多头与空头在7天、15天、30天、60天时间范围内的胜率。
多头回报率：在1天、7天、15天、30天、60天的平均与中位数回报率。
空头回报率：在1天、7天、15天、30天、60天的平均与中位数回报率。
综合评分：结合多项指标的排名分数。
作者详情页：包含每位作者个股推荐明细的独立页面。

方法论

分析周期：采用1年滚动窗口。
筛选条件：仅包含高确信度推荐；剔除重复推荐（在所有作者间进行14天去重）。
数据来源：使用人工智能从Substack通讯文章中提取个股推荐。
回报计算：从文章发布日期开始，使用实际市场数据计算回报。

更新频率

数据定期更新。具体更新日期请查看报告标题中的 Generated 时间戳。

搜集汇总

数据集介绍

构建方式

在金融科技与内容分析交叉领域，Substack Author Performance Data的构建体现了数据驱动评估的创新路径。该数据集通过人工智能技术，从Substack平台的财经通讯文章中提取作者的高确信度股票推荐，并采用滚动一年的时间窗口进行动态更新。为确保数据质量，构建过程严格筛选新颖的推荐信号，排除14天内重复的标的，并以文章发布日期为基准，整合实际市场数据计算不同持有期的回报表现。

特点

该数据集的核心特征在于其多维度的绩效评估体系。它不仅涵盖作者在多个时间维度下的多头与空头胜率，还提供了从一日到六十日的平均与中位数回报数据，并引入综合评分对作者进行排名。每一份分析报告均附带详细的作者页面，展示个体股票推荐的细分数据，使得用户能够深入洞察作者的策略表现与市场影响力。

使用方法

研究人员与投资者可借助该数据集进行量化分析与策略回溯。通过访问包含绩效指标与综合排名的Markdown文件，用户能够评估不同财经通讯作者的推荐质量，识别长期表现稳健的贡献者。数据集支持定期更新，使用者可依据报告头部的时间戳获取最新分析，从而为投资决策或学术研究提供实证基础。

背景与挑战

背景概述

在金融科技与量化分析交叉领域，对财经内容创作者进行绩效评估逐渐成为研究热点。Substack Author Performance Data 数据集应运而生，由相关研究团队或机构构建，旨在系统性地追踪并分析 Substack 平台上财经通讯作者的股票推荐表现。该数据集聚焦于核心研究问题：如何客观量化自媒体作者的投顾能力及其市场影响力。通过整合人工智能文本提取与真实市场回报数据，它提供了一个为期一年的滚动窗口分析，涵盖多时间维度的胜率与回报指标，为投资者行为研究、金融信息有效性验证以及内容平台生态评估提供了实证基础，推动了数据驱动的金融内容评价体系的发展。

当前挑战

该数据集致力于解决财经内容推荐绩效量化这一领域问题，面临诸多挑战。在领域层面，如何准确定义并衡量“高确信度推荐”，避免市场噪音干扰，确保评估的公正性与可比性是一大难题；同时，将非结构化的文本建议转化为可回溯检验的标准化投资信号，需要克服自然语言处理在金融语境下的语义模糊性。在构建过程中，挑战同样显著：从海量通讯文章中自动化提取并去重股票代码与观点，对AI模型的准确性与泛化能力提出了高要求；此外，匹配文章发布时间与高频市场数据以计算精确回报，涉及复杂的时间对齐与数据清洗工作，保障数据更新的时效性与一致性亦非易事。

常用场景

经典使用场景

在金融科技与量化投资领域，Substack Author Performance Data 数据集为研究人员提供了评估金融通讯作者投资建议绩效的标准化框架。该数据集通过系统化追踪作者在Substack平台发布的股票推荐，计算不同时间窗口下的胜率与回报率，经典使用场景包括构建作者绩效排名模型、分析投资策略的时效性与稳定性，以及探究市场信息传播效率。这为量化分析师和学术研究者提供了实证基础，用以检验金融通讯内容的市场预测能力。

解决学术问题

该数据集有效解决了金融信息学中关于社交媒体投资建议有效性的实证研究难题。通过整合AI提取的股票推荐与真实市场回报数据，它使得学者能够严谨评估金融通讯作者的投资洞察力，检验市场效率假说在新型媒体环境下的适用性。其意义在于弥合了传统金融理论与数字内容生态之间的研究鸿沟，为理解信息扩散、行为金融及投资决策自动化提供了高质量的数据支撑，推动了相关领域的实证方法论创新。

衍生相关工作

围绕该数据集衍生的经典工作主要集中在量化金融与自然语言处理交叉领域。例如，研究团队基于其作者绩效指标开发了多因子排序模型，用于预测金融通讯的长期价值；另有工作结合文本分析技术，探究作者表达风格与投资回报的相关性。这些衍生研究不仅深化了对金融信息价值链的理解，还催生了新型的绩效归因框架与自动化内容评估系统，持续拓展了数据驱动型投资研究的边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集