P-Tree Public Data

github2024-10-15 更新2024-10-29 收录

下载链接：

https://github.com/Quantactix/P-Tree-Public-Data

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含由Panel Trees生成的测试资产和因子，用于论文《Growing the Efficient Frontier on Panel Trees》中的实验。数据集分为三个文件夹，分别覆盖不同的训练和测试时间段，包含20个因子文件和多个测试资产文件。

This dataset contains test assets and factors generated by Panel Trees, which are utilized for the experiments in the paper titled *Growing the Efficient Frontier on Panel Trees*. The dataset is divided into three folders, each covering distinct training and testing time periods, and includes 20 factor files and multiple test asset files.

创建时间：

2024-10-15

原始信息汇总

P-Tree Public Data

数据集概述

该数据集用于分享论文《Growing the Efficient Frontier on Panel Trees》中生成的测试资产和因子。

数据下载

P-Tree因子 [20 factors]
P-Tree测试资产
- [P-Tree 1]
- [P-Tree 2]
- [P-Tree 3]
- [P-Tree 4]
- [P-Tree 5]
- [P-Tree 6]
- [P-Tree 7]
- [P-Tree 8]
- [P-Tree 9]
- [P-Tree 10]
- [P-Tree 11]
- [P-Tree 12]
- [P-Tree 13]
- [P-Tree 14]
- [P-Tree 15]
- [P-Tree 16]
- [P-Tree 17]
- [P-Tree 18]
- [P-Tree 19]
- [P-Tree 20]

数据集说明

测试资产的回报率是超过无风险利率的。
提供了三种不同的训练-测试方案的文件夹：
1. Train_1981_2020：训练时间为1981年至2020年，包含20个因子。其余文件为20个增强PTrees生成的测试资产回报。
2. Train_1981_2000_Test_2001_2020：训练时间为1981年至2000年，测试时间为2001年至2020年。测试样本数据命名为“*_test.csv”。
3. Train_2001_2020_Test_1981_2000：训练时间为2001年至2020年，测试时间为1981年至2000年。测试样本数据命名为“*_test.csv”。

参考文献

Cong, L. W., G. Feng, J. He, and X. He (2024). Growing the Efficient Frontier on Panel Trees. Forthcoming, Journal of Financial Economics. SSRN Link

联系信息

Xin He
Tenure-Track Associate Professor of Finance,
School of Management, University of Science and Technology of China.
xin.he@ustc.edu.cn

搜集汇总

数据集介绍

构建方式

P-Tree Public Data数据集的构建基于Panel Trees模型，涵盖了从1981年至2020年的40年时间序列数据。该数据集包括20个因子（factors.csv）和20个增强的PTrees生成的测试资产回报数据。每个PTree生成10个测试资产，总计200个测试资产。数据集分为三个文件夹，分别用于不同的训练和测试方案：'Train_1981_2020'用于40年的训练数据，'Train_1981_2000_Test_2001_2020'和'Train_2001_2020_Test_1981_2000'分别用于20年的训练和测试数据。所有测试资产的回报均超过无风险利率。

特点

P-Tree Public Data数据集的主要特点在于其时间序列的广泛覆盖和多样的训练测试方案。数据集包含20个因子，这些因子是基于Panel Trees模型生成的，具有较高的理论和实践价值。此外，数据集提供了三种不同的训练和测试方案，使得研究者可以根据需求选择合适的方案进行分析。测试资产的回报数据均超过无风险利率，这为风险管理和高收益投资策略的研究提供了宝贵的数据支持。

使用方法

使用P-Tree Public Data数据集时，研究者可以根据研究目的选择合适的文件夹进行数据下载和分析。对于需要全面时间序列分析的研究，推荐使用'Train_1981_2020'文件夹。若需进行样本内和样本外分析，可选择'Train_1981_2000_Test_2001_2020'或'Train_2001_2020_Test_1981_2000'文件夹。下载数据后，研究者可以利用这些因子数据和测试资产回报数据进行多种金融模型和策略的验证与优化，特别是在风险管理和投资组合优化领域。

背景与挑战

背景概述

P-Tree Public Data数据集由Xin He教授领导的团队在2024年创建，旨在支持论文《Growing the Efficient Frontier on Panel Trees》的研究。该数据集主要包含从1981年至2020年的20个因子数据和多个Panel Trees生成的测试资产回报数据。其核心研究问题是如何通过Panel Trees模型优化投资组合的效率边界，对金融经济学领域具有重要影响。

当前挑战

P-Tree Public Data数据集在构建过程中面临的主要挑战包括：1) 数据的时间跨度长达40年，确保数据的连续性和准确性是一项艰巨任务；2) 数据集包含20个因子，如何有效筛选和处理这些因子以提高模型的预测能力是一个复杂问题；3) 数据集提供了多种训练和测试方案，如何在不同方案间保持一致性和可比性，是使用该数据集进行研究时需解决的关键问题。

常用场景

经典使用场景

在金融领域，P-Tree Public Data数据集的经典使用场景主要集中在资产组合优化和风险管理。研究者可以利用该数据集中的20个因子及其生成的20个P-Tree测试资产，进行资产组合的构建与优化，以实现更高的收益与更低的风险。此外，数据集还支持不同时间段的训练与测试，使得研究者能够进行跨时间段的资产表现分析，从而验证模型的稳健性与预测能力。

实际应用

在实际应用中，P-Tree Public Data数据集被广泛用于金融机构的资产管理和风险控制。通过利用数据集中的因子与测试资产，金融机构能够构建更为优化的资产组合，提高投资回报率。同时，数据集支持的跨时间段分析功能，使得机构能够在不同市场环境下进行风险评估与管理，从而增强其应对市场波动的能力。此外，数据集的公开性也为金融科技公司提供了宝贵的资源，推动了金融科技的创新与发展。

衍生相关工作

P-Tree Public Data数据集的发布催生了多项相关研究与应用。首先，基于该数据集，研究者们开发了多种资产组合优化模型，进一步提升了金融市场的效率。其次，数据集的因子分析功能激发了关于因子投资策略的研究，推动了因子投资理论的发展。此外，数据集的跨时间段分析特性，也促进了时间序列分析在金融领域的应用，为金融市场的长期预测提供了新的工具与方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集