FinLang/investopedia-instruction-tuning-dataset

Name: FinLang/investopedia-instruction-tuning-dataset
Creator: FinLang
Published: 2024-05-06 08:56:20
License: 暂无描述

Hugging Face2024-05-06 更新2024-06-15 收录

下载链接：

https://hf-mirror.com/datasets/FinLang/investopedia-instruction-tuning-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

investopedia-instruction-tuning数据集是一个关于金融领域的大规模数据集，来源于Investopedia。该数据集通过一种新的技术方法，利用非结构化抓取数据和大型语言模型（LLM）生成适合微调嵌入模型的结构化数据。数据集中的每个数据点包含多个字段，如主题、标题、上下文、问题-答案对等，用于训练聊天模型和减少幻觉。数据集采用90-10的比例分割为训练和测试集，且由于使用了非商业数据，因此以cc-by-nc-4.0许可证发布。

The Investopedia-Instruction-Tuning Dataset is a large-scale financial domain dataset sourced from Investopedia. This dataset employs a novel technical methodology that leverages unstructured scraped data and large language models (LLMs) to generate structured data tailored for embedding model fine-tuning. Each data point in the dataset contains multiple fields such as subject, title, context, question-answer pairs, etc., which are utilized for training chat models and mitigating hallucinations. The dataset is split into training and test sets with a 90-10 ratio, and it is released under the CC-BY-NC-4.0 license given that non-commercial data is used.

提供机构：

FinLang

原始信息汇总

数据集卡片 for investopedia-instruction-tuning 数据集

我们使用一种新的技术从 Investopedia 中筛选出与金融相关的大规模数据集，该技术利用非结构化的抓取数据和大型语言模型（LLM）生成适合微调嵌入模型的结构化数据。数据集生成采用了一种新的自验证方法，确保生成的问答对在很大程度上不是由LLM幻觉产生的。

数据集描述

每个数据点包含以下字段：

Topic：问题和答案生成所围绕的主题的一般分类。
Title：更详细的描述或从其中生成问题和答案的段落的标题。
Context：从互联网上抓取的文本的真实/未编辑段落。这可以用于RAG应用中的微调，以减少幻觉。
Question-Answer：用于在完整问答对上进行SFT的拼接问答。
Question：用于训练聊天模型的指令。
Answer：用于训练聊天模型的响应。
bge-large-en-v1.5-correlation：在BGE大型嵌入模型下计算问题和答案的相关性。尽管BGE对金融的理解可能有限，但它作为基线是有用的。

示例：

json { "Topic": "mortgage", "Title": "<title>How to Use a Home Equity Loan for a Remodel</title>", "Context": "Here are some to keep in mind: Because home equity loans are secured by your home, they generally offer low interest rates when compared to unsecured options like personal loans. These low rates can help you save money on your home remodel costs. Unlike home equity lines of credit (HELOCs), home equity loans have fixed interest rates. This means you aren’t vulnerable to rate changes, and your monthly payment will remain stable for your entire repayment term. Home equity loans can be used for a wide variety of purposes, including home improvements. While your lender may ask what the money will be used for, you generally won’t have to provide any sort of documentation", "Question-Answer": "Question: What are some advantages of using a home equity loan for a home remodel compared to unsecured options like personal loans? Answer: The passage highlights two main advantages: home equity loans generally offer low interest rates when compared to unsecured options like personal loans, which can help save money on home remodel costs. Additionally, they have fixed interest rates, providing stability in monthly payments and protection from rate changes during the entire repayment term.", "Question": "What are some advantages of using a home equity loan for a home remodel compared to unsecured options like personal loans?", "Answer": "The passage highlights two main advantages: home equity loans generally offer low interest rates when compared to unsecured options like personal loans, which can help save money on home remodel costs. Additionally, they have fixed interest rates, providing stability in monthly payments and protection from rate changes during the entire repayment term.", "bge-large-en-v1.5-correlation": 0.915799 }

数据集来源

来源数据：从 Investopedia 收集。

数据集结构

我们创建了一个90-10的训练和测试数据集分割。

数据集创建

筛选理由

在金融领域，语言模型的普及存在三个关键限制：首先，没有适合语言和嵌入模型微调的大型（数百万个令牌）公开可用数据集，这是由于大型公司如Bloomberg等出于金钱和隐私利益保护内部数据的结果；其次，当前的语言模型在遇到复杂的金融缩写时表现不佳，这再次指向了训练模型数据不足的问题；第三，尽管互联网上有大量关于金融的数据，如Investopedia、Yahoo Finance等网站，但很难以适合指令调优或嵌入训练的形式获取数据，因为注释非结构化数据集将因需要高薪专家而产生巨大成本。

许可证

由于用于生成数据集的数据是非商业性的，因此我们以cc-by-nc-4.0许可证发布此数据集。

搜集汇总

数据集介绍

构建方式

在金融文本数据稀缺且标注成本高昂的背景下，Investopedia指令调优数据集采用了一种创新的构建方法。该方法首先从Investopedia网站抓取非结构化的金融文本作为原始语料，随后利用大型语言模型（LLM）将这些文本转化为结构化的指令-响应对。为确保生成内容的质量与真实性，构建过程引入了一种自我验证机制，该机制能够以较高概率识别并过滤掉LLM可能产生的幻觉内容，从而生成适用于嵌入模型与聊天模型微调的高质量数据。

特点

该数据集的核心特点在于其专为金融领域指令调优而设计的结构化表示。每个数据点不仅包含原始的上下文段落，为检索增强生成（RAG）应用提供了可靠的基础，还细致地分离了问题、答案以及二者的拼接形式，以满足不同训练场景的需求。尤为突出的是，数据集额外提供了基于BGE-large嵌入模型计算的问题-答案相关性分数，这为评估生成对的质量提供了一个有价值的量化基准，尽管该模型对金融术语的理解可能存在局限。

使用方法

该数据集主要应用于金融领域大型语言模型的指令微调。研究人员可将‘Question’与‘Answer’字段直接用于监督式微调，以提升模型在金融问答任务上的表现。同时，完整的‘Context’字段能够支持检索增强生成框架的开发，有助于减少模型在专业领域的幻觉现象。数据集已预先划分为训练集与测试集，用户可按此划分进行模型训练与评估，而相关性分数则可用于辅助筛选高质量的训练样本或进行初步的质量分析。

背景与挑战

背景概述

随着大语言模型在金融领域的应用日益深入，专业数据集的匮乏成为制约其发展的关键瓶颈。FinLang团队于近期构建的investopedia-instruction-tuning-dataset，正是针对这一困境而设计的开源指令微调数据集。该数据集源自权威金融知识平台Investopedia，通过创新的非结构化数据采集与大型语言模型协同生成技术，将原始文本转化为结构化的问答对，旨在为金融领域语言模型与嵌入模型的精细化训练提供高质量语料。其核心研究问题聚焦于破解金融文本中专业术语密集、语义复杂且公开数据稀缺的难题，为促进开放金融自然语言处理研究奠定了重要基础。

当前挑战

该数据集致力于应对金融领域自然语言处理中专业文本理解与生成的挑战，特别是模型在面对复杂金融缩写、专业概念时容易产生幻觉或误解的问题。在构建过程中，团队需克服多重困难：首先，金融文本的专业性要求标注者具备深厚领域知识，导致人工标注成本极高；其次，从非结构化网页数据中自动化生成高质量、无幻觉的指令-答案对，需要设计可靠的自验证机制以确保数据准确性；此外，如何在保护数据源头非商业许可的前提下，构建适用于模型微调的规模化数据集，亦是一项复杂的工程与法律挑战。

常用场景

经典使用场景

在金融自然语言处理领域，高质量指令微调数据的稀缺性长期制约着模型的专业化发展。Investopedia指令微调数据集通过创新的自验证技术，将非结构化的金融文本转化为结构化的问答对，为金融领域大语言模型的指令微调提供了经典范例。该数据集常被用于训练金融领域专用聊天模型，通过其精心构建的“问题-答案”对，使模型能够精准理解抵押贷款、股权投资等复杂金融概念的语义关联，显著提升模型在专业对话场景下的响应准确性与逻辑连贯性。

衍生相关工作

围绕该数据集所采用的数据构建方法论，已启发了一系列后续研究。其核心贡献——利用大语言模型结合自验证技术从非结构化网页生成指令数据——为其他垂直领域（如法律、医疗）的专用数据集构建提供了可复现的范式。相关工作进一步探索了更精细的金融实体关系抽取、基于该数据集的嵌入模型微调以优化金融语义检索，以及研究不同微调策略对模型在金融风险评估、财报分析等下游任务中泛化能力的影响，持续拓展着领域自适应语言模型的边界。

数据集最近研究