open-compass-OpenFinData|金融科技数据集|数据评测数据集

魔搭社区2025-07-03 更新2024-06-01 收录

金融科技

数据评测

下载链接：

https://modelscope.cn/datasets/Shanghai_AI_Laboratory/open-compass-OpenFinData

下载链接

链接失效反馈

资源简介：

# OpenFinData 大语言模型开源金融评测数据集 ## 项目介绍 OpenFinData是由东方财富与上海人工智能实验室联合发布的开源金融评测数据集。该数据集代表了最真实的产业场景需求，是目前场景最全、专业性最深的金融评测数据集。它基于东方财富实际金融业务的多样化丰富场景，旨在为金融科技领域的研究者和开发者提供一个高质量的数据资源。 ## 核心优势 - **真实性**: 数据集专注于金融领域知识，每一条数据均由实际金融业务场景产生，确保了数据的真实性和实用性。 - **全面性**: 涵盖多种数据类型和多样化金融场景，详细归类，确保评估的全面性，满足不同金融模型的需求。 - **专业性**: 数据集由金融行业专业人士构建，经过高质量筛选和处理，保证了数据的专业性和准确性。 - **拓展性**: 数据集设计具有高度的可拓展性，支持快速编辑与迭代，以适应金融科技领域的快速发展和变化。 ## 数据集内容 OpenFinData数据集由以下六个模块构成，每个模块包含多个任务维度，以满足金融领域的不同评测需求。以下是数据集内容的详细表格： | 模块名称 | 任务维度 | 描述 | |----------------|--------------------------------|--------------------------------------------------------------| | 金融知识 | 金融术语/黑话 | 提供金融行业中的专业术语及其解释。 | | | 金融事实 | 记录金融市场的历史事件和事实数据。 | | 金融判别 | 金融意图理解 | 识别用户在金融场景中的意图。 | | | 情绪识别 | 分析金融文本中的情绪倾向。 | | | 金融实体识别 | 从文本中识别出金融相关的实体。 | | | 金融实体消歧 | 解决金融实体在不同上下文中的歧义问题。 | | 金融计算 | 金融数据检查 | 验证金融数据的一致性和准确性。 | | | 金融数值提取 | 从非结构化数据中提取关键的金融数值信息。 | | | 金融指标计算 | 计算并提供各种金融指标。 | | 金融分析 | 股票分析 | 对股票市场进行深入分析。 | | | 基金分析 | 分析基金的表现和风险。 | | | 行业/板块分析 | 对特定行业或板块的市场表现进行评估。 | | | 行情分析 | 提供市场行情的综合分析。 | | 金融解读 | 宏观解读 | 解读宏观经济政策和事件对金融市场的影响。 | | | 行业解读 | 分析特定行业的发展动态和趋势。 | | | 公告解读 | 对上市公司公告进行内容分析和影响评估。 | | | 事件解读 | 解释金融市场中的重大事件及其潜在影响。 | | 金融合规 | 金融业务合规 | 确保金融业务流程符合相关法规要求。 | | | 信息安全合规 | 保护金融数据的安全，防止数据泄露和滥用。 | ## 使用指南 1. **数据下载**: 请点击[数据集链接](https://github.com/open-compass/OpenFinData/releases/download/release/openfindata_release.zip)下载数据集。 2. **模型评估**: 我们提供基于[OpenCompass](https://github.com/open-compass/opencompass)的模型评估方案，更多细节将会更新在OpenCompass的文档中。 ## 致谢我们感谢所有参与OpenFinData项目的贡献者，包括但不限于数据收集、清洗、标注和评测的团队成员。特别感谢东方财富和上海人工智能实验室的支持。 ## 备注本数据集仅供学术研究使用，请勿将此数据集用于任何的模型训练。 ## 联系方式如有任何问题或建议，请通过以下方式联系我们： - Email: [opencompass@pjlab.org.cn](mailto:opencompass@pjlab.org.cn) - GitHub Issues: [OpenFinData GitHub页面](https://github.com/open-compass/OpenFinData/issues) ## 更新日志 - **2023年12月29日**: 发布了OpenFinData数据集的初始版本，包含1500条数据记录。 ## 下载方法 :modelscope-code[]{type="sdk"} :modelscope-code[]{type="git"}

提供机构：

maas

创建时间：

2024-05-28

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

CE-CSL

CE-CSL数据集是由哈尔滨工程大学智能科学与工程学院创建的中文连续手语数据集，旨在解决现有数据集在复杂环境下的局限性。该数据集包含5,988个从日常生活场景中收集的连续手语视频片段，涵盖超过70种不同的复杂背景，确保了数据集的代表性和泛化能力。数据集的创建过程严格遵循实际应用导向，通过收集大量真实场景下的手语视频材料，覆盖了广泛的情境变化和环境复杂性。CE-CSL数据集主要应用于连续手语识别领域，旨在提高手语识别技术在复杂环境中的准确性和效率，促进聋人与听人社区之间的无障碍沟通。

arXiv 收录

MAV-VID, Drone-vs-Bird, Anti-UAV

本研究涉及三个数据集：MAV-VID、Drone-vs-Bird和Anti-UAV，总计包含241个视频，共计331,486张图像。这些数据集由杜伦大学创建，用于无人机视觉检测和跟踪的研究。数据集内容丰富，包括从地面和无人机搭载的摄像头捕获的图像，涵盖了多种环境和条件。创建过程中，数据集经过精心标注和处理，以确保数据质量。这些数据集主要用于评估和改进无人机检测和跟踪技术，特别是在复杂环境和动态场景中的应用。

arXiv 收录

TCM-SD

TCM-SD数据集是首个公开的大规模证型辨识基准，由北京理工大学计算机科学与技术学院创建。该数据集包含54,152条真实世界的临床记录，涵盖148种证型，旨在通过自然语言处理技术推动中医理论的实证研究。数据集的创建过程涉及从网站爬取大量未标记文本，构建中医领域特定的预训练语言模型ZY-BERT。TCM-SD数据集的应用领域主要集中在中医诊断与治疗系统中，特别是证型辨识任务，以解决中医领域数据驱动AI技术的进一步发展需求。

arXiv 收录

FLIR Dataset

该数据集主要提供三种类型的热成像图像：训练集包含8862张热成像图像，验证集包含1366张热成像图像，视频集包含4224张热成像图像。这些图像被用于训练YOLOv3检测器，并在验证集上报告了mAP。视频集用于跟踪检测到的对象。

github 收录

TongueDx Dataset

TongueDx数据集是一个专为远程舌诊研究设计的综合性舌象图像数据集，由香港理工大学和新加坡管理大学的研究团队创建。该数据集包含5109张图像，涵盖了多种环境条件下的舌象，图像通过智能手机和笔记本电脑摄像头采集，具有较高的多样性和代表性。数据集不仅包含舌象图像，还提供了详细的舌面属性标注，如舌色、舌苔厚度等，并附有受试者的年龄、性别等人口统计信息。数据集的创建过程包括图像采集、舌象分割、标准化处理和多标签标注，旨在解决远程医疗中舌诊图像质量不一致的问题。该数据集的应用领域主要集中在远程医疗和中医诊断，旨在通过自动化技术提高舌诊的准确性和可靠性。

arXiv 收录