fin-term-instruct

Hugging Face2025-05-04 更新2025-05-05 收录

下载链接：

https://huggingface.co/datasets/taetae030/fin-term-instruct

下载链接

链接失效反馈

官方服务：

资源简介：

fin-term-instruct是一个专门针对韩语金融术语的问答数据集，它基于AI Hub的金融·法律文档机器阅读理解数据构建而成，包含了400,000条数据，专门选取了金融经济领域的约17.3%的数据。数据集采用了Alpaca-style的指令格式，每个条目包含一个问题和一个简洁准确的答案，用于大型语言模型的金融聊天机器人调优。

创建时间：

2025-05-04

原始信息汇总

📘 fin-term-instruct 数据集概述

📌 基本描述

数据集名称: fin-term-instruct
语言: 韩语
领域: 金融
用途: 聊天机器人、指令生成、问答系统
适用模型: 大型语言模型(LLM)如Meta的LLaMA系列
许可证: Apache-2.0

📦 数据来源

原始数据: AI Hub的"金融·法律文档机器阅读理解数据"
原始数据地址: AI Hub – 金融·法律文档机器阅读理解数据
数据构建年份: 2022年
总构建量: 400,000条
原始格式: JSON（包含文本-问题-答案）

🔍 数据筛选与处理

筛选范围: 仅使用金融经济领域数据（约17.3%）
处理方式:
- 从MRC格式转换为instruction-style QA格式
- 通过GPT进行摘要和精炼，统一为简洁的回答格式

🏛 数据提供机构

韩国银行
金融委员会
金融监督院
国会立法调查处
法制处
韩国金融研究院等

📑 数据结构

格式: Alpaca-style instruction格式
字段:
- instruction: 问题（自然语言句子）
- input: 上下文（本数据集中省略）
- output: 对问题的简短准确回答

📋 示例

instruction	input	output
韩国银行为预防业务推进过程中可能出现的风险每年实施的是什么		风险控制自我诊断
2021年通过加强数据科学项目进行培训的机构是哪里		韩国银行
为数字时代的数据管理和利用而制定的制度是什么		数据治理规定

📂 JSON示例

json { "instruction": "为数字创新建立经济展望系统时使用的技术是什么", "input": "", "output": "人工智能" }

搜集汇总

数据集介绍

构建方式

在金融科技快速发展的背景下，fin-term-instruct数据集应运而生，旨在为韩语金融术语解释提供高质量的问答数据。该数据集基于AI Hub的"金融·法律文档机器阅读理解数据"，从中精选出金融经济领域的17.3%内容，通过GPT技术进行摘要和精炼，将原始的机器阅读理解格式转化为简洁的指令式问答格式，确保了数据的专业性和可用性。

使用方法

fin-term-instruct数据集的使用方法简单直观，用户可以通过加载JSON格式的数据文件，直接获取instruction和output字段，构建金融术语问答系统。该数据集特别适合用于微调大型语言模型，如LLaMA系列，以开发韩语金融聊天机器人。用户可以根据需要，进一步对数据进行预处理或增强，以适应不同的应用场景。

背景与挑战

背景概述

fin-term-instruct数据集是专为韩国金融术语解释设计的指令式问答数据集，由韩国AI Hub于2022年联合多家金融机构共同构建，包括韩国银行、金融委员会等权威机构。该数据集源自AI Hub的"金融·法律文档机器阅读理解数据"项目，旨在为大型语言模型如LLaMA系列提供韩国金融领域的高质量微调数据。通过精选金融经济领域17.3%的核心内容，并转化为Alpaca-style指令格式，该数据集显著提升了韩语金融聊天机器人的术语理解与生成能力，填补了非英语金融NLP研究的资源空白。

当前挑战

该数据集面临双重挑战：在领域问题层面，金融术语具有高度专业性和时效性，要求模型准确理解不断更新的金融政策与概念；同时韩语复杂的敬语体系和缩略语形式增加了语义解析难度。在构建过程中，原始数据的法律金融混合特性需精确领域划分，MRC格式向指令式转换需保持语义一致性，且GPT辅助摘要可能引入信息损失。多机构联合构建带来的术语表述差异也需标准化处理。

常用场景

经典使用场景

在金融科技领域，fin-term-instruct数据集为研究人员和开发者提供了一个专门针对韩语金融术语解释的问答数据集。该数据集最经典的使用场景是用于训练和优化大型语言模型（如Meta的LLaMA系列），使其能够更好地理解和回答与韩语金融术语相关的问题。通过提供高质量的指令-应答对，该数据集为构建专业的金融聊天机器人提供了坚实的基础。

解决学术问题

fin-term-instruct数据集解决了金融自然语言处理中的几个关键学术问题。首先，它填补了韩语金融术语问答数据集的空白，为相关研究提供了宝贵资源。其次，通过将传统的机器阅读理解（MRC）数据转换为指令式问答格式，该数据集为研究指令微调（instruction tuning）提供了实验平台。此外，数据集的构建过程还涉及GPT技术的应用，为研究如何利用大模型优化专业领域数据提供了参考案例。

实际应用

在实际应用层面，fin-term-instruct数据集可直接用于开发面向韩国市场的金融咨询服务系统。银行、证券公司等金融机构可利用该数据集训练智能客服系统，为客户提供准确的金融术语解释服务。数据集的简洁问答格式特别适合移动端应用场景，能够快速响应用户查询。同时，该数据集也可作为金融知识图谱构建的基础数据来源。

数据集最近研究