five

博金大模型挑战赛-金融千问14b数据集

收藏
魔搭社区2026-06-14 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset
下载链接
链接失效反馈
官方服务:
资源简介:
<p align="center"> <img src="./img/1.png" alt="BOSERA BIG CHALLENGE" width="50%"> </p> ## 数据集描述 赛事主办方提供三类数据。一个是10张数据表,一个是招股说明书,以及将招股说明书pdf解析后的txt文件。 #### 10张表,用sqlite存储。选手可自行替换为其他db。区间为2019年至2021年 - 基金基本信息 - 基金股票持仓明细 - 基金债券持仓明细 - 基金可转债持仓明细 - 基金日行情表 - A股票日行情表 - 港股票日行情表 - A股公司行业划分表 - 基金规模变动表 - 基金份额持有人结构 #### 招股说明书 - 80份招股说明书 ## 数据集的格式和结构 #### 博金杯比赛数据.db - 大小:1.46g - 文件格式:db文件 - 文件数量:1 #### 招股说明书 pdf源文件 - 大小:527MB - 文件格式:pdf文件 - 文件数量:80 #### 招股说明书 pdf解析后的txt文件 - 大小:44MB - 文件格式:txt文件 - 文件数量:80 #### 初赛问题 - 文件名:question.json ## 数据集的格式和结构 ### 数据集加载方式 #### git Clone with HTTP ```bash # 要求安装 git lfs git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git ``` #### 读取问题文件 ```python import jsonlines def read_jsonl(path): content = [] with jsonlines.open(path, "r") as json_file: for obj in json_file.iter(type=dict, skip_invalid=True): content.append(obj) return content question = read_jsonl('./question.json') ``` ## 数据集版权信息 数据集已经开源,license为Apache License 2.0,如有违反相关条款,随时联系删除。

<p align="center"> <img src="./img/1.png" alt="BOSERA大型挑战赛 (BOSERA BIG CHALLENGE)" width="50%"> </p> ## 数据集概述 本次赛事主办方提供三类数据集,分别为10张数据表、招股说明书,以及招股说明书PDF文件解析得到的TXT文本文件。 ### 10张数据表(采用SQLite存储,参赛者可自行替换为其他数据库类型) 数据时间跨度为2019年至2021年,具体包含以下表项: - 基金基本信息 - 基金股票持仓明细 - 基金债券持仓明细 - 基金可转债持仓明细 - 基金日行情表 - A股票日行情表 - 港股票日行情表 - A股公司行业划分表 - 基金规模变动表 - 基金份额持有人结构 ### 招股说明书数据集 共包含80份招股说明书文件。 ## 数据集格式与结构 #### 博金杯比赛数据.db - 文件大小:1.46 GB - 文件格式:DB 数据库文件 - 文件数量:1 #### 招股说明书PDF源文件 - 文件大小:527 MB - 文件格式:PDF 文件 - 文件数量:80 #### 招股说明书PDF解析后TXT文本文件 - 文件大小:44 MB - 文件格式:TXT 文本文件 - 文件数量:80 #### 初赛赛题文件 - 文件名:question.json ## 数据集格式与结构 ### 数据集加载方式 #### Git克隆(需安装Git LFS) bash git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git #### 读取赛题文件 python import jsonlines def read_jsonl(path): content = [] with jsonlines.open(path, "r") as json_file: for obj in json_file.iter(type=dict, skip_invalid=True): content.append(obj) return content question = read_jsonl('./question.json') ## 数据集版权声明 本数据集已开源,采用Apache License 2.0开源协议,若存在违反协议条款的情况,将随时联系予以删除。
提供机构:
maas
创建时间:
2023-10-28
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是金融领域的多模态资源,包含10类结构化数据表(2019-2021年)和80份招股说明书(含PDF与解析文本),总规模2.18GB,支持基金、股票等金融信息的问答分析,采用Apache 2.0协议开源。
以上内容由遇见数据集搜集并总结生成
二维码
社区交流群
二维码
科研交流群
商业服务