Chinese Stock Policy Retrieval Dataset (CSPRD)
收藏arXiv2023-09-11 更新2024-06-21 收录
下载链接:
https://github.com/noewangjy/csprd_dataset
下载链接
链接失效反馈官方服务:
资源简介:
中国股票政策检索数据集(CSPRD)是由上海证券交易所技术有限公司创建的一个专注于中国股票市场的政策检索数据集。该数据集包含709份由经验丰富的专家标注的招股说明书,关联到超过10,000条政策文章。CSPRD旨在通过提供大规模、高质量的专业标注数据,填补金融和经济领域在政策驱动检索数据集方面的空白。数据集主要用于测试和提升预训练语言模型在实际金融场景中的性能,特别是在政策检索任务中的应用。
China Stock Policy Retrieval Dataset (CSPRD) is a policy retrieval dataset focused on the Chinese stock market, created by Shanghai Stock Exchange Technology Co., Ltd. This dataset contains 709 prospectuses annotated by experienced experts, which are linked to over 10,000 policy articles. CSPRD aims to fill the gap in policy-driven retrieval datasets in the financial and economic fields by providing large-scale, high-quality professionally annotated data. The dataset is primarily used to test and improve the performance of pre-trained language models in real-world financial scenarios, particularly for their application in policy retrieval tasks.
提供机构:
上海交通大学-巴黎高科卓越工程师学院
创建时间:
2023-09-08
搜集汇总
数据集介绍

构建方式
CSPRD数据集的构建分为五个阶段:数据收集、数据预处理、专家标注、数据集划分和数据发布。首先从上海证券交易所官网收集政策文件和公司招股说明书,然后通过语义匹配提取关键文本信息。使用混合专家系统对文本对进行打分,选取Top-20推荐政策文章供专家标注。数据集包含700+经过专家标注的政策文章和招股说明书。
特点
CSPRD数据集的特点包括:涵盖金融领域的政策文件和公司招股说明书;由上海证券交易所专家进行精确标注;包含10,002篇政策文章和709篇招股说明书;数据集分为训练集和验证集;提供中英双语版本,方便国际研究使用。
使用方法
使用CSPRD数据集时,可以将其作为训练和验证信息检索模型的基础数据集。数据集提供了与公司业务相关的政策文章,可以用于监管机构的辅助服务和投资者的决策支持。使用前需对数据集进行预处理,如文本清洗、分词等。训练过程中可以使用各种信息检索模型,如基于词袋模型、嵌入模型和微调模型等。
背景与挑战
背景概述
Chinese Stock Policy Retrieval Dataset (CSPRD)是由上海证券交易所的技术公司创建的,包含700多个招股说明书段落和10,002篇政策文章。该数据集由经验丰富的上海证券交易所专家进行标注,旨在填补金融和股票市场领域的事实驱动检索数据集的空白。CSPRD数据集的创建,对于研究政策检索任务、提高监管机构的决策质量和为投资者提供更全面的信息具有重要意义。
当前挑战
CSPRD数据集在构建过程中遇到的挑战主要包括:1) 处理招股说明书和 policies 两种分布不同的语言;2) 确定政策文章与招股说明书段落之间的相关性。这些挑战要求构建一个大规模的、由专家标注的政策检索数据集,以研究检索模型在处理专业领域文本时的性能。
常用场景
经典使用场景
CSPRD数据集最经典的使用场景在于,给定一家上市公司的事业计划书段落,系统需要从大规模的政策文献库中检索出与之匹配的相关政策文章。这一任务对于辅助监管机构进行政策审查,以及为投资者提供更全面的投资信息具有重要意义。
实际应用
在实际应用中,CSPRD数据集可以帮助金融机构快速定位与公司业务相关的政策法规,提高政策合规性审查的效率;同时,也可以为投资者提供与投资决策相关的政策信息,辅助投资者作出更明智的投资选择。
衍生相关工作
基于CSPRD数据集,研究者可以开展进一步的工作,如政策影响分析、政策趋势预测等。此外,CSPRD数据集的发布也促进了金融领域自然语言处理技术的应用与发展,为金融科技领域的研究与实践提供了新的视角和方法。
以上内容由遇见数据集搜集并总结生成



