FinShibainu

Hugging Face2024-12-18 更新2024-12-19 收录

下载链接：

https://huggingface.co/datasets/aiqwe/FinShibainu

下载链接

链接失效反馈

官方服务：

资源简介：

FinShibainu数据集是一个专门为韩国金融领域设计的多任务学习数据集，包含多个配置，如mcqa、qa和validation。mcqa配置用于多选题回答任务，qa配置用于问答任务，validation配置用于模型验证。数据集特征包括参考文档、问题、选项、推理过程、答案、价值评估等，涉及金融、会计、股票、量化和经济等主题。

创建时间：

2024-12-09

原始信息汇总

FinShibainu 数据集概述

基本信息

语言: 韩语
许可证: Apache 2.0
任务类别:
- 问答
- 多选题
- 文本生成

数据集配置

配置 `mcqa`

特征:
- reference: 字符串
- question: 字符串
- options: 字符串序列
- reasoning_process: 字符串
- n_options: 整数
- answer: 字符串
- step: 整数
- value: 整数
- type: 字符串
分割:
- train: 42463个样本，46733377字节
下载大小: 22153268字节
数据集大小: 46733377字节

配置 `qa`

特征:
- reference: 字符串
- question: 字符串
- answer_A: 字符串
- answer_B: 字符串
- preference: 字符串
- preference_desc: 字符串
- value: 整数
- type: 字符串
分割:
- train: 44870个样本，164002895字节
下载大小: 78226614字节
数据集大小: 164002895字节

配置 `validation`

特征:
- question: 字符串
- options: 字符串序列
- reasoning_process: 字符串
- answer: 字符串
- task: 字符串
- n_options: 字符串
- type: 字符串
分割:
- train: 112个样本，96378字节
下载大小: 52314字节
数据集大小: 96378字节

数据文件

mcqa:
- train: mcqa/train-*
qa:
- train: qa/train-*
validation:
- train: validation/train-*

引用

bibtex @misc{jaylee2024finshibainu, author = {Jay Lee}, title = {FinShibainu: Korean specified finance model}, year = {2024}, publisher = {GitHub}, journal = {GitHub repository}, url = {https://github.com/aiqwe/FinShibainu} }

搜集汇总

数据集介绍

构建方式

FinShibainu数据集的构建基于多种金融和经济领域的参考文献，包括韩国银行的经济金融术语、KRX的规章制度、以及各类经济术语词典等。数据集通过整合这些权威资源，生成了涵盖多选题（MCQA）和问答（QA）形式的训练数据。MCQA部分包含问题、选项、推理过程和答案，而QA部分则包含基于参考文献的答案和无参考文献的答案，以及用户偏好选择。数据集的构建过程确保了数据的多样性和专业性，为金融领域的模型训练提供了坚实的基础。

特点

FinShibainu数据集的显著特点在于其专业性和多样性。首先，数据集涵盖了广泛的金融和经济领域，包括会计、股票、量化分析和经济学术语。其次，数据集采用了多选题和问答两种形式，既包含标准化的选择题，也包含更具开放性的问答任务，能够全面评估模型的推理和生成能力。此外，数据集还提供了详细的推理过程和用户偏好信息，为模型的训练和评估提供了丰富的上下文支持。

使用方法

FinShibainu数据集适用于多种金融领域的自然语言处理任务，包括问答系统、多选题回答和文本生成。用户可以通过HuggingFace的datasets库加载该数据集，并根据任务需求选择不同的配置（如MCQA或QA）。对于多选题任务，用户可以利用问题、选项和推理过程进行模型训练；对于问答任务，用户可以根据参考文献的依赖性选择不同的答案生成策略。数据集的详细字段和配置信息可在GitHub仓库中找到，用户可根据具体需求进行定制化使用。

背景与挑战

背景概述

FinShibainu数据集是由Jay Lee及其团队创建的，专注于韩国金融领域的问答和多选题任务。该数据集在KRX LLM竞赛中获得了优异成绩，展示了其在金融领域的应用潜力。数据集的构建基于多种金融相关文档，如韩国银行的经济金融术语、KRX的规章制度等，旨在为金融领域的自然语言处理模型提供高质量的训练数据。通过该数据集，研究人员能够探索和优化金融领域的问答系统和多选题模型，推动金融科技的发展。

当前挑战

FinShibainu数据集在构建过程中面临多项挑战。首先，金融领域的专业术语和复杂逻辑要求数据集具备高度的准确性和专业性，这对数据标注和清洗提出了严格要求。其次，数据集需要涵盖广泛的金融知识领域，包括会计、股票、经济学等，确保模型能够应对多样化的金融问题。此外，数据集的多样性和平衡性也是一个挑战，以避免模型在特定领域过拟合。最后，如何有效评估模型的推理过程和教育价值，也是数据集设计和使用中的重要问题。

常用场景

经典使用场景

FinShibainu数据集在金融领域的问答和多选题任务中展现了其经典应用。该数据集通过提供丰富的金融相关问题及其答案，支持模型在金融知识问答（QA）和多选题问答（MCQA）任务中的训练与评估。其设计不仅涵盖了基础的金融知识，还通过引入推理过程和选择题选项，增强了模型在复杂金融问题上的推理能力。

衍生相关工作

基于FinShibainu数据集，研究者们开发了多种金融领域的智能问答模型和多选题解答系统。例如，shibainu24模型在KRX LLM竞赛中获得了优异成绩，展示了该数据集在金融问答任务中的强大潜力。此外，该数据集还激发了更多关于金融知识推理和多选题解答的研究，推动了金融领域自然语言处理技术的进步。

数据集最近研究