P-Tree Public Data|金融数据数据集|投资组合优化数据集

github2024-10-15 更新2024-10-29 收录

金融数据

投资组合优化

下载链接：

https://github.com/Quantactix/P-Tree-Public-Data

下载链接

链接失效反馈

资源简介：

该数据集包含由Panel Trees生成的测试资产和因子，用于论文《Growing the Efficient Frontier on Panel Trees》中的实验。数据集分为三个文件夹，分别覆盖不同的训练和测试时间段，包含20个因子文件和多个测试资产文件。

创建时间：

2024-10-15

原始信息汇总

P-Tree Public Data

数据集概述

该数据集用于分享论文《Growing the Efficient Frontier on Panel Trees》中生成的测试资产和因子。

数据下载

P-Tree因子 [20 factors]
P-Tree测试资产
- [P-Tree 1]
- [P-Tree 2]
- [P-Tree 3]
- [P-Tree 4]
- [P-Tree 5]
- [P-Tree 6]
- [P-Tree 7]
- [P-Tree 8]
- [P-Tree 9]
- [P-Tree 10]
- [P-Tree 11]
- [P-Tree 12]
- [P-Tree 13]
- [P-Tree 14]
- [P-Tree 15]
- [P-Tree 16]
- [P-Tree 17]
- [P-Tree 18]
- [P-Tree 19]
- [P-Tree 20]

数据集说明

测试资产的回报率是超过无风险利率的。
提供了三种不同的训练-测试方案的文件夹：
1. Train_1981_2020：训练时间为1981年至2020年，包含20个因子。其余文件为20个增强PTrees生成的测试资产回报。
2. Train_1981_2000_Test_2001_2020：训练时间为1981年至2000年，测试时间为2001年至2020年。测试样本数据命名为“*_test.csv”。
3. Train_2001_2020_Test_1981_2000：训练时间为2001年至2020年，测试时间为1981年至2000年。测试样本数据命名为“*_test.csv”。

参考文献

Cong, L. W., G. Feng, J. He, and X. He (2024). Growing the Efficient Frontier on Panel Trees. Forthcoming, Journal of Financial Economics. SSRN Link

联系信息

Xin He
Tenure-Track Associate Professor of Finance,
School of Management, University of Science and Technology of China.
xin.he@ustc.edu.cn

AI搜集汇总

数据集介绍

构建方式

P-Tree Public Data数据集的构建基于Panel Trees模型，涵盖了从1981年至2020年的40年时间序列数据。该数据集包括20个因子（factors.csv）和20个增强的PTrees生成的测试资产回报数据。每个PTree生成10个测试资产，总计200个测试资产。数据集分为三个文件夹，分别用于不同的训练和测试方案：'Train_1981_2020'用于40年的训练数据，'Train_1981_2000_Test_2001_2020'和'Train_2001_2020_Test_1981_2000'分别用于20年的训练和测试数据。所有测试资产的回报均超过无风险利率。

特点

P-Tree Public Data数据集的主要特点在于其时间序列的广泛覆盖和多样的训练测试方案。数据集包含20个因子，这些因子是基于Panel Trees模型生成的，具有较高的理论和实践价值。此外，数据集提供了三种不同的训练和测试方案，使得研究者可以根据需求选择合适的方案进行分析。测试资产的回报数据均超过无风险利率，这为风险管理和高收益投资策略的研究提供了宝贵的数据支持。

使用方法

使用P-Tree Public Data数据集时，研究者可以根据研究目的选择合适的文件夹进行数据下载和分析。对于需要全面时间序列分析的研究，推荐使用'Train_1981_2020'文件夹。若需进行样本内和样本外分析，可选择'Train_1981_2000_Test_2001_2020'或'Train_2001_2020_Test_1981_2000'文件夹。下载数据后，研究者可以利用这些因子数据和测试资产回报数据进行多种金融模型和策略的验证与优化，特别是在风险管理和投资组合优化领域。

背景与挑战

背景概述

P-Tree Public Data数据集由Xin He教授领导的团队在2024年创建，旨在支持论文《Growing the Efficient Frontier on Panel Trees》的研究。该数据集主要包含从1981年至2020年的20个因子数据和多个Panel Trees生成的测试资产回报数据。其核心研究问题是如何通过Panel Trees模型优化投资组合的效率边界，对金融经济学领域具有重要影响。

当前挑战

P-Tree Public Data数据集在构建过程中面临的主要挑战包括：1) 数据的时间跨度长达40年，确保数据的连续性和准确性是一项艰巨任务；2) 数据集包含20个因子，如何有效筛选和处理这些因子以提高模型的预测能力是一个复杂问题；3) 数据集提供了多种训练和测试方案，如何在不同方案间保持一致性和可比性，是使用该数据集进行研究时需解决的关键问题。

常用场景

经典使用场景

在金融领域，P-Tree Public Data数据集的经典使用场景主要集中在资产组合优化和风险管理。研究者可以利用该数据集中的20个因子及其生成的20个P-Tree测试资产，进行资产组合的构建与优化，以实现更高的收益与更低的风险。此外，数据集还支持不同时间段的训练与测试，使得研究者能够进行跨时间段的资产表现分析，从而验证模型的稳健性与预测能力。

实际应用

在实际应用中，P-Tree Public Data数据集被广泛用于金融机构的资产管理和风险控制。通过利用数据集中的因子与测试资产，金融机构能够构建更为优化的资产组合，提高投资回报率。同时，数据集支持的跨时间段分析功能，使得机构能够在不同市场环境下进行风险评估与管理，从而增强其应对市场波动的能力。此外，数据集的公开性也为金融科技公司提供了宝贵的资源，推动了金融科技的创新与发展。

衍生相关工作

P-Tree Public Data数据集的发布催生了多项相关研究与应用。首先，基于该数据集，研究者们开发了多种资产组合优化模型，进一步提升了金融市场的效率。其次，数据集的因子分析功能激发了关于因子投资策略的研究，推动了因子投资理论的发展。此外，数据集的跨时间段分析特性，也促进了时间序列分析在金融领域的应用，为金融市场的长期预测提供了新的工具与方法。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国1km分辨率逐月降水量数据集（1901-2023）

该数据集为中国逐月降水量数据，空间分辨率为0.0083333°（约1km），时间为1901.1-2023.12。数据格式为NETCDF，即.nc格式。该数据集是根据CRU发布的全球0.5°气候数据集以及WorldClim发布的全球高分辨率气候数据集，通过Delta空间降尺度方案在中国降尺度生成的。并且，使用496个独立气象观测点数据进行验证，验证结果可信。本数据集包含的地理空间范围是全国主要陆地（包含港澳台地区），不含南海岛礁等区域。为了便于存储，数据均为int16型存于nc文件中，降水单位为0.1mm。 nc数据可使用ArcMAP软件打开制图; 并可用Matlab软件进行提取处理，Matlab发布了读入与存储nc文件的函数，读取函数为ncread，切换到nc文件存储文件夹，语句表达为：ncread (‘XXX.nc’,‘var’, [i j t],[leni lenj lent])，其中XXX.nc为文件名，为字符串需要’’；var是从XXX.nc中读取的变量名，为字符串需要’’；i、j、t分别为读取数据的起始行、列、时间，leni、lenj、lent i分别为在行、列、时间维度上读取的长度。这样，研究区内任何地区、任何时间段均可用此函数读取。Matlab的help里面有很多关于nc数据的命令，可查看。数据坐标系统建议使用WGS84。

国家青藏高原科学数据中心收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

中国区域地面气象要素驱动数据集 v2.0（1951-2020）

中国区域地面气象要素驱动数据集（China Meteorological Forcing Data，以下简称 CMFD）是为支撑中国区域陆面、水文、生态等领域研究而研发的一套高精度、高分辨率、长时间序列数据产品。本页面发布的 CMFD 2.0 包含了近地面气温、气压、比湿、全风速、向下短波辐射通量、向下长波辐射通量、降水率等气象要素，时间分辨率为 3 小时，水平空间分辨率为 0.1°，时间长度为 70 年（1951~2020 年），覆盖了 70°E~140°E，15°N~55°N 空间范围内的陆地区域。CMFD 2.0 融合了欧洲中期天气预报中心 ERA5 再分析数据与气象台站观测数据，并在辐射、降水数据产品中集成了采用人工智能技术制作的 ISCCP-ITP-CNN 和 TPHiPr 数据产品，其数据精度较 CMFD 的上一代产品有显著提升。 CMFD 历经十余年的发展，其间发布了多个重要版本。2019 年发布的 CMFD 1.6 是完全采用传统数据融合技术制作的最后一个 CMFD 版本，而本次发布的 CMFD 2.0 则是 CMFD 转向人工智能技术制作的首个版本。此版本与 1.6 版具有相同的时空分辨率和基础变量集，但在其它诸多方面存在大幅改进。除集成了采用人工智能技术制作的辐射和降水数据外，在制作 CMFD 2.0 的过程中，研发团队尽可能采用单一来源的再分析数据作为输入并引入气象台站迁址信息，显著缓解了 CMFD 1.6 中因多源数据拼接和气象台站迁址而产生的虚假气候突变。同时，CMFD 2.0 数据的时间长度从 CMFD 1.6 的 40 年大幅扩展到了 70 年，并将继续向后延伸。CMFD 2.0 的网格空间范围虽然与 CMFD 1.6 相同，但其有效数据扩展到了中国之外，能够更好地支持跨境区域研究。为方便用户使用，CMFD 2.0 还在基础变量集之外提供了若干衍生变量，包括近地面相对湿度、雨雪分离降水产品等。此外，CMFD 2.0 摒弃了 CMFD 1.6 中通过 scale_factor 和 add_offset 参数将实型数据化为整型数据的压缩技术，转而直接将实型数据压缩存储于 NetCDF4 格式文件中，从而消除了用户使用数据时进行解压换算的困扰。本数据集原定版本号为 1.7，但鉴于本数据集从输入数据到研制技术都较上一代数据产品有了大幅的改变，故将其版本号重新定义为 2.0。CMFD 2.0 的数据内容与此前宣传的 CMFD 1.7 基本一致，仅对 1983 年 7 月以后的向下短/长波辐射通量数据进行了更新，以修正其长期趋势存在的问题。2021 年至 2024 年的 CMFD 数据正在制作中，计划于 2025 年上半年发布，从而使 CMFD 2.0 延伸至 2024 年底。

国家青藏高原科学数据中心收录

中国农村教育发展报告

该数据集包含了中国农村教育发展的相关数据，涵盖了教育资源分布、教育质量、学生表现等多个方面的信息。