sujet-ai/Sujet-Finance-Instruct-177k

Name: sujet-ai/Sujet-Finance-Instruct-177k
Creator: sujet-ai
Published: 2024-04-05 23:19:54
License: 暂无描述

Hugging Face2024-04-05 更新2024-04-19 收录

下载链接：

https://hf-mirror.com/datasets/sujet-ai/Sujet-Finance-Instruct-177k

下载链接

链接失效反馈

官方服务：

资源简介：

Sujet Finance数据集是一个专为金融领域语言学习模型（LLMs）微调设计的综合性数据集。它整合了18个不同的HuggingFace数据集，包含177,597条数据，涵盖了七种主要的金融LLM任务，包括情感分析、问答、带上下文的问答、对话式问答、是/否问题、主题分类和命名实体识别情感分析。数据集经过去重和清理非Ascii字符的预处理，确保其干净可用。数据集结构包括输入、回答、系统提示、用户提示、原始数据集名称、任务类型等列。

Sujet Finance Dataset is a comprehensive dataset tailored for fine-tuning large language models (LLMs) in the financial domain. It integrates 18 distinct Hugging Face datasets, containing 177,597 data instances, and covers seven core financial LLM tasks: sentiment analysis, general question answering, context-aware question answering, conversational question answering, yes/no question answering, topic classification, and named entity recognition (NER)-based sentiment analysis. The dataset has undergone preprocessing steps including deduplication and removal of non-ASCII characters to ensure its cleanliness and usability. The dataset structure includes columns such as input, answer, system prompt, user prompt, original dataset name, and task type.

提供机构：

sujet-ai

原始信息汇总

Sujet Finance Dataset Overview

数据集概述

Sujet Finance 数据集是一个专为金融领域语言学习模型（LLMs）微调设计的综合数据集。它整合了来自HuggingFace上的18个不同数据集的数据，总计177,597条记录，覆盖了七个关键的金融LLM任务，适用于开发和增强AI在金融领域的应用。

数据集组成

Sujet Finance 数据集包含多种金融文本数据，分布在以下任务类型中：

情感分析: 44,209条记录，涉及对金融文本进行情感分类，包括积极、消极、中性、看跌或看涨。
QA（问答）: 38,801条记录，直接回答不需要额外上下文的金融问题。
QA带上下文: 40,475条记录，需要上下文才能回答的金融问题。
QA对话: 15,613条记录，包括用户与LLM助手之间的对话历史中的问题。
是/否问题: 20,547条记录，需要简单的是或否回答的问题。
主题分类: 16,990条记录，要求将金融文本分类到特定的金融相关类别。
NER（命名实体识别）情感分析: 962条记录，涉及在文本实体级别进行情感分析。

数据来源

Sujet Finance 数据集去重后，整合了以下HuggingFace数据集的数据：

gbharti/finance-alpaca: 58,485条记录
ugursa/Yahoo-Finance-News-Sentences: 22,458条记录
AdaptLLM/finance-tasks_Headline: 20,547条记录
ceadar-ie/FinTalk-19k: 19,105条记录
zeroshot/twitter-financial-news-topic: 16,990条记录
dylanalloy/ehc-contrived-financial: 12,450条记录
zeroshot/twitter-financial-news-sentiment: 9,538条记录
financial_phrasebank: 4,838条记录
AdiOO7/llama-2-finance: 4,838条记录
amphora/lmsys-finance: 3,163条记录
AdaptLLM/finance-tasks_ConvFinQA: 1,488条记录
KennNguyenDev/FiQA_Financial_Phrasebank_Combined: 1,111条记录
AdaptLLM/finance-tasks_FPB: 970条记录
yixuantt/FinEntity: 962条记录
AdaptLLM/finance-tasks_FiQA_SA: 235条记录
nickmuchi/financial-classification: 221条记录
lighthouzai/finqabench: 100条记录
adityamavle/FinRiskAnalysis: 98条记录

数据预处理

Sujet Finance 数据集经过彻底的去重处理，识别并移除了超过60,000条重复记录。此外，数据集还进行了预处理，以消除非ASCII和其他不规则字符，确保数据集干净可用。

数据集结构

Sujet Finance 数据集的结构如下：

inputs: 包含为LLM微调准备的指令，包括基于任务的系统提示、原始数据集的性质和预期结果。
answer: 对应于inputs列的响应。
system_prompt: 为特定任务类型和输入性质设计的特殊提示。
user_prompt: 数据集中的原始上下文、问题或请求。
dataset: 记录来源的原始数据集名称。
task_type: 金融LLM任务的类别。
index_level 和 conversation_id: 这两个列是amphora/lmsys-finance数据集独有的，用于qa_conversation任务，允许选择同一对话的不同长度。

搜集汇总

数据集介绍

构建方式

在金融领域的人工智能应用开发中，语言学习模型的微调是至关重要的一环。Sujet Finance数据集便是为此目的而构建的，它通过整合来自HuggingFace平台上的18个不同数据集，形成了包含177,597条条目的丰富资源库。这些条目跨越了七个关键的金融语言学习模型任务，构建过程中采用了广泛的数据预处理和去重步骤，以确保数据的质量和多样性。

使用方法

使用Sujet Finance数据集时，用户可以直接访问其结构化的数据字段，如输入指令、答案、系统提示、用户提示、原始数据集名称、任务类型等。这些字段为用户提供了灵活的数据处理方式，可以根据不同的微调任务需求，选择相应的数据条目和格式。用户可以通过HuggingFace提供的接口轻松地加载和利用这些数据进行模型训练和评估。

背景与挑战

背景概述

在人工智能领域，金融文本分析是自然语言处理技术的重要应用场景之一。Sujet Finance数据集应运而生，旨在为语言学习模型（LLMs）的微调提供综合性的金融领域数据集。该数据集由18个不同的HuggingFace数据集融合而成，总计177,597条数据，涵盖了金融LLM任务的七个关键类别。自构建以来，该数据集便由专业研究人员和机构提供支持，为金融AI应用的发展与优化提供了丰富的资源，对金融领域的AI研究产生了显著影响。

当前挑战

Sujet Finance数据集在构建和应用过程中面临了多项挑战。首先，数据集整合了多个来源的数据，确保数据的多样性和覆盖面的同时，也带来了数据清洗、去重和预处理的挑战。其次，金融领域的文本数据通常包含专业术语和复杂的语义结构，这对LLM的准确理解和响应提出了更高的要求。此外，数据集在解决金融领域问题时，如情感分析、问题回答、命名实体识别等任务中，如何保证模型的泛化能力和精确度，也是当前面临的重要挑战。

常用场景

经典使用场景

在金融领域的人工智能研究中，sujet-ai/Sujet-Finance-Instruct-177k数据集以其丰富的任务类型和文本数据，成为细调语言学习模型（LLM）的典范资源。该数据集涵盖七种关键的金融LLM任务，如情感分析、问题回答、命名实体识别等，为开发金融AI应用提供了全面的支持。经典的使用场景包括利用该数据集对LLM进行微调，以提升模型在金融文本理解、生成及分类任务中的性能。

解决学术问题

该数据集解决了金融领域AI研究中模型泛化能力不足、文本理解不准确等关键问题。通过提供多样化的金融文本和任务类型，它促进了学术研究的深度和广度，使得模型能够在实际应用中更好地处理复杂的金融场景，从而提高了学术研究的质量和影响力。

实际应用

实际应用中，sujet-ai/Sujet-Finance-Instruct-177k数据集被广泛应用于构建智能金融助手、自动化金融报告生成、金融市场趋势分析等场景。这些应用不仅提升了金融服务的效率，还通过精准的数据分析为决策者提供了重要的决策支持。

数据集最近研究