博金大模型挑战赛-金融千问14b数据集
收藏魔搭社区2026-06-14 更新2024-05-15 收录
下载链接:
https://modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset
下载链接
链接失效反馈官方服务:
资源简介:
<p align="center">
<img src="./img/1.png" alt="BOSERA BIG CHALLENGE" width="50%">
</p>
## 数据集描述
赛事主办方提供三类数据。一个是10张数据表,一个是招股说明书,以及将招股说明书pdf解析后的txt文件。
#### 10张表,用sqlite存储。选手可自行替换为其他db。区间为2019年至2021年
- 基金基本信息
- 基金股票持仓明细
- 基金债券持仓明细
- 基金可转债持仓明细
- 基金日行情表
- A股票日行情表
- 港股票日行情表
- A股公司行业划分表
- 基金规模变动表
- 基金份额持有人结构
#### 招股说明书
- 80份招股说明书
## 数据集的格式和结构
#### 博金杯比赛数据.db
- 大小:1.46g
- 文件格式:db文件
- 文件数量:1
#### 招股说明书 pdf源文件
- 大小:527MB
- 文件格式:pdf文件
- 文件数量:80
#### 招股说明书 pdf解析后的txt文件
- 大小:44MB
- 文件格式:txt文件
- 文件数量:80
#### 初赛问题
- 文件名:question.json
## 数据集的格式和结构
### 数据集加载方式
#### git Clone with HTTP
```bash
# 要求安装 git lfs
git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git
```
#### 读取问题文件
```python
import jsonlines
def read_jsonl(path):
content = []
with jsonlines.open(path, "r") as json_file:
for obj in json_file.iter(type=dict, skip_invalid=True):
content.append(obj)
return content
question = read_jsonl('./question.json')
```
## 数据集版权信息
数据集已经开源,license为Apache License 2.0,如有违反相关条款,随时联系删除。
<p align="center">
<img src="./img/1.png" alt="BOSERA大型挑战赛 (BOSERA BIG CHALLENGE)" width="50%">
</p>
## 数据集概述
本次赛事主办方提供三类数据集,分别为10张数据表、招股说明书,以及招股说明书PDF文件解析得到的TXT文本文件。
### 10张数据表(采用SQLite存储,参赛者可自行替换为其他数据库类型)
数据时间跨度为2019年至2021年,具体包含以下表项:
- 基金基本信息
- 基金股票持仓明细
- 基金债券持仓明细
- 基金可转债持仓明细
- 基金日行情表
- A股票日行情表
- 港股票日行情表
- A股公司行业划分表
- 基金规模变动表
- 基金份额持有人结构
### 招股说明书数据集
共包含80份招股说明书文件。
## 数据集格式与结构
#### 博金杯比赛数据.db
- 文件大小:1.46 GB
- 文件格式:DB 数据库文件
- 文件数量:1
#### 招股说明书PDF源文件
- 文件大小:527 MB
- 文件格式:PDF 文件
- 文件数量:80
#### 招股说明书PDF解析后TXT文本文件
- 文件大小:44 MB
- 文件格式:TXT 文本文件
- 文件数量:80
#### 初赛赛题文件
- 文件名:question.json
## 数据集格式与结构
### 数据集加载方式
#### Git克隆(需安装Git LFS)
bash
git clone https://www.modelscope.cn/datasets/BJQW14B/bs_challenge_financial_14b_dataset.git
#### 读取赛题文件
python
import jsonlines
def read_jsonl(path):
content = []
with jsonlines.open(path, "r") as json_file:
for obj in json_file.iter(type=dict, skip_invalid=True):
content.append(obj)
return content
question = read_jsonl('./question.json')
## 数据集版权声明
本数据集已开源,采用Apache License 2.0开源协议,若存在违反协议条款的情况,将随时联系予以删除。
提供机构:
maas
创建时间:
2023-10-28
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集是金融领域的多模态资源,包含10类结构化数据表(2019-2021年)和80份招股说明书(含PDF与解析文本),总规模2.18GB,支持基金、股票等金融信息的问答分析,采用Apache 2.0协议开源。
以上内容由遇见数据集搜集并总结生成



