five

Chinese Stock Policy Retrieval Dataset (CSPRD)|股票市场数据集|政策检索数据集

收藏
arXiv2023-09-11 更新2024-06-21 收录
股票市场
政策检索
下载链接:
https://github.com/noewangjy/csprd_dataset
下载链接
链接失效反馈
资源简介:
中国股票政策检索数据集(CSPRD)是由上海证券交易所技术有限公司创建的一个专注于中国股票市场的政策检索数据集。该数据集包含709份由经验丰富的专家标注的招股说明书,关联到超过10,000条政策文章。CSPRD旨在通过提供大规模、高质量的专业标注数据,填补金融和经济领域在政策驱动检索数据集方面的空白。数据集主要用于测试和提升预训练语言模型在实际金融场景中的性能,特别是在政策检索任务中的应用。
提供机构:
上海交通大学-巴黎高科卓越工程师学院
创建时间:
2023-09-08
AI搜集汇总
数据集介绍
main_image_url
构建方式
CSPRD数据集的构建分为五个阶段:数据收集、数据预处理、专家标注、数据集划分和数据发布。首先从上海证券交易所官网收集政策文件和公司招股说明书,然后通过语义匹配提取关键文本信息。使用混合专家系统对文本对进行打分,选取Top-20推荐政策文章供专家标注。数据集包含700+经过专家标注的政策文章和招股说明书。
特点
CSPRD数据集的特点包括:涵盖金融领域的政策文件和公司招股说明书;由上海证券交易所专家进行精确标注;包含10,002篇政策文章和709篇招股说明书;数据集分为训练集和验证集;提供中英双语版本,方便国际研究使用。
使用方法
使用CSPRD数据集时,可以将其作为训练和验证信息检索模型的基础数据集。数据集提供了与公司业务相关的政策文章,可以用于监管机构的辅助服务和投资者的决策支持。使用前需对数据集进行预处理,如文本清洗、分词等。训练过程中可以使用各种信息检索模型,如基于词袋模型、嵌入模型和微调模型等。
背景与挑战
背景概述
Chinese Stock Policy Retrieval Dataset (CSPRD)是由上海证券交易所的技术公司创建的,包含700多个招股说明书段落和10,002篇政策文章。该数据集由经验丰富的上海证券交易所专家进行标注,旨在填补金融和股票市场领域的事实驱动检索数据集的空白。CSPRD数据集的创建,对于研究政策检索任务、提高监管机构的决策质量和为投资者提供更全面的信息具有重要意义。
当前挑战
CSPRD数据集在构建过程中遇到的挑战主要包括:1) 处理招股说明书和 policies 两种分布不同的语言;2) 确定政策文章与招股说明书段落之间的相关性。这些挑战要求构建一个大规模的、由专家标注的政策检索数据集,以研究检索模型在处理专业领域文本时的性能。
常用场景
经典使用场景
CSPRD数据集最经典的使用场景在于,给定一家上市公司的事业计划书段落,系统需要从大规模的政策文献库中检索出与之匹配的相关政策文章。这一任务对于辅助监管机构进行政策审查,以及为投资者提供更全面的投资信息具有重要意义。
实际应用
在实际应用中,CSPRD数据集可以帮助金融机构快速定位与公司业务相关的政策法规,提高政策合规性审查的效率;同时,也可以为投资者提供与投资决策相关的政策信息,辅助投资者作出更明智的投资选择。
衍生相关工作
基于CSPRD数据集,研究者可以开展进一步的工作,如政策影响分析、政策趋势预测等。此外,CSPRD数据集的发布也促进了金融领域自然语言处理技术的应用与发展,为金融科技领域的研究与实践提供了新的视角和方法。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集,旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段,涵盖超过70种不同的复杂背景,确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向,通过收集大量真实场景下的手语视频材料,覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域,旨在提高手语识别技术在复杂环境中的准确性和效率,促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

CIFAR-10

CIFAR-10 数据集由 10 个类别的 60000 个 32x32 彩色图像组成,每个类别包含 6000 个图像。有 50000 个训练图像和 10000 个测试图像。 数据集分为五个训练批次和一个测试批次,每个批次有 10000 张图像。测试批次恰好包含来自每个类别的 1000 个随机选择的图像。训练批次包含随机顺序的剩余图像,但一些训练批次可能包含来自一个类的图像多于另一个。在它们之间,训练批次恰好包含来自每个类别的 5000 张图像。

OpenDataLab 收录

OpenSonarDatasets

OpenSonarDatasets是一个致力于整合开放源代码声纳数据集的仓库,旨在为水下研究和开发提供便利。该仓库鼓励研究人员扩展当前的数据集集合,以增加开放源代码声纳数据集的可见性,并提供一个更容易查找和比较数据集的方式。

github 收录

AISHELL/AISHELL-1

Aishell是一个开源的中文普通话语音语料库,由北京壳壳科技有限公司发布。数据集包含了来自中国不同口音地区的400人的录音,录音在安静的室内环境中使用高保真麦克风进行,并下采样至16kHz。通过专业的语音标注和严格的质量检查,手动转录的准确率超过95%。该数据集免费供学术使用,旨在为语音识别领域的新研究人员提供适量的数据。

hugging_face 收录

中国农村金融统计数据

该数据集包含了中国农村金融的统计信息,涵盖了农村金融机构的数量、贷款余额、存款余额、金融服务覆盖率等关键指标。数据按年度和地区分类,提供了详细的农村金融发展状况。

www.pbc.gov.cn 收录