sujet-ai/Sujet-Finance-Instruct-177k
收藏Hugging Face2024-04-05 更新2024-04-19 收录
下载链接:
https://hf-mirror.com/datasets/sujet-ai/Sujet-Finance-Instruct-177k
下载链接
链接失效反馈官方服务:
资源简介:
Sujet Finance数据集是一个专为金融领域语言学习模型(LLMs)微调设计的综合性数据集。它整合了18个不同的HuggingFace数据集,包含177,597条数据,涵盖了七种主要的金融LLM任务,包括情感分析、问答、带上下文的问答、对话式问答、是/否问题、主题分类和命名实体识别情感分析。数据集经过去重和清理非Ascii字符的预处理,确保其干净可用。数据集结构包括输入、回答、系统提示、用户提示、原始数据集名称、任务类型等列。
Sujet Finance Dataset is a comprehensive dataset tailored for fine-tuning large language models (LLMs) in the financial domain. It integrates 18 distinct Hugging Face datasets, containing 177,597 data instances, and covers seven core financial LLM tasks: sentiment analysis, general question answering, context-aware question answering, conversational question answering, yes/no question answering, topic classification, and named entity recognition (NER)-based sentiment analysis. The dataset has undergone preprocessing steps including deduplication and removal of non-ASCII characters to ensure its cleanliness and usability. The dataset structure includes columns such as input, answer, system prompt, user prompt, original dataset name, and task type.
提供机构:
sujet-ai
原始信息汇总
Sujet Finance Dataset Overview
数据集概述
Sujet Finance 数据集是一个专为金融领域语言学习模型(LLMs)微调设计的综合数据集。它整合了来自HuggingFace上的18个不同数据集的数据,总计177,597条记录,覆盖了七个关键的金融LLM任务,适用于开发和增强AI在金融领域的应用。
数据集组成
Sujet Finance 数据集包含多种金融文本数据,分布在以下任务类型中:
- 情感分析: 44,209条记录,涉及对金融文本进行情感分类,包括积极、消极、中性、看跌或看涨。
- QA(问答): 38,801条记录,直接回答不需要额外上下文的金融问题。
- QA带上下文: 40,475条记录,需要上下文才能回答的金融问题。
- QA对话: 15,613条记录,包括用户与LLM助手之间的对话历史中的问题。
- 是/否问题: 20,547条记录,需要简单的是或否回答的问题。
- 主题分类: 16,990条记录,要求将金融文本分类到特定的金融相关类别。
- NER(命名实体识别)情感分析: 962条记录,涉及在文本实体级别进行情感分析。
数据来源
Sujet Finance 数据集去重后,整合了以下HuggingFace数据集的数据:
- gbharti/finance-alpaca: 58,485条记录
- ugursa/Yahoo-Finance-News-Sentences: 22,458条记录
- AdaptLLM/finance-tasks_Headline: 20,547条记录
- ceadar-ie/FinTalk-19k: 19,105条记录
- zeroshot/twitter-financial-news-topic: 16,990条记录
- dylanalloy/ehc-contrived-financial: 12,450条记录
- zeroshot/twitter-financial-news-sentiment: 9,538条记录
- financial_phrasebank: 4,838条记录
- AdiOO7/llama-2-finance: 4,838条记录
- amphora/lmsys-finance: 3,163条记录
- AdaptLLM/finance-tasks_ConvFinQA: 1,488条记录
- KennNguyenDev/FiQA_Financial_Phrasebank_Combined: 1,111条记录
- AdaptLLM/finance-tasks_FPB: 970条记录
- yixuantt/FinEntity: 962条记录
- AdaptLLM/finance-tasks_FiQA_SA: 235条记录
- nickmuchi/financial-classification: 221条记录
- lighthouzai/finqabench: 100条记录
- adityamavle/FinRiskAnalysis: 98条记录
数据预处理
Sujet Finance 数据集经过彻底的去重处理,识别并移除了超过60,000条重复记录。此外,数据集还进行了预处理,以消除非ASCII和其他不规则字符,确保数据集干净可用。
数据集结构
Sujet Finance 数据集的结构如下:
inputs: 包含为LLM微调准备的指令,包括基于任务的系统提示、原始数据集的性质和预期结果。answer: 对应于inputs列的响应。system_prompt: 为特定任务类型和输入性质设计的特殊提示。user_prompt: 数据集中的原始上下文、问题或请求。dataset: 记录来源的原始数据集名称。task_type: 金融LLM任务的类别。index_level和conversation_id: 这两个列是amphora/lmsys-finance数据集独有的,用于qa_conversation任务,允许选择同一对话的不同长度。
搜集汇总
数据集介绍

构建方式
在金融领域的人工智能应用开发中,语言学习模型的微调是至关重要的一环。Sujet Finance数据集便是为此目的而构建的,它通过整合来自HuggingFace平台上的18个不同数据集,形成了包含177,597条条目的丰富资源库。这些条目跨越了七个关键的金融语言学习模型任务,构建过程中采用了广泛的数据预处理和去重步骤,以确保数据的质量和多样性。
使用方法
使用Sujet Finance数据集时,用户可以直接访问其结构化的数据字段,如输入指令、答案、系统提示、用户提示、原始数据集名称、任务类型等。这些字段为用户提供了灵活的数据处理方式,可以根据不同的微调任务需求,选择相应的数据条目和格式。用户可以通过HuggingFace提供的接口轻松地加载和利用这些数据进行模型训练和评估。
背景与挑战
背景概述
在人工智能领域,金融文本分析是自然语言处理技术的重要应用场景之一。Sujet Finance数据集应运而生,旨在为语言学习模型(LLMs)的微调提供综合性的金融领域数据集。该数据集由18个不同的HuggingFace数据集融合而成,总计177,597条数据,涵盖了金融LLM任务的七个关键类别。自构建以来,该数据集便由专业研究人员和机构提供支持,为金融AI应用的发展与优化提供了丰富的资源,对金融领域的AI研究产生了显著影响。
当前挑战
Sujet Finance数据集在构建和应用过程中面临了多项挑战。首先,数据集整合了多个来源的数据,确保数据的多样性和覆盖面的同时,也带来了数据清洗、去重和预处理的挑战。其次,金融领域的文本数据通常包含专业术语和复杂的语义结构,这对LLM的准确理解和响应提出了更高的要求。此外,数据集在解决金融领域问题时,如情感分析、问题回答、命名实体识别等任务中,如何保证模型的泛化能力和精确度,也是当前面临的重要挑战。
常用场景
经典使用场景
在金融领域的人工智能研究中,sujet-ai/Sujet-Finance-Instruct-177k数据集以其丰富的任务类型和文本数据,成为细调语言学习模型(LLM)的典范资源。该数据集涵盖七种关键的金融LLM任务,如情感分析、问题回答、命名实体识别等,为开发金融AI应用提供了全面的支持。经典的使用场景包括利用该数据集对LLM进行微调,以提升模型在金融文本理解、生成及分类任务中的性能。
解决学术问题
该数据集解决了金融领域AI研究中模型泛化能力不足、文本理解不准确等关键问题。通过提供多样化的金融文本和任务类型,它促进了学术研究的深度和广度,使得模型能够在实际应用中更好地处理复杂的金融场景,从而提高了学术研究的质量和影响力。
实际应用
实际应用中,sujet-ai/Sujet-Finance-Instruct-177k数据集被广泛应用于构建智能金融助手、自动化金融报告生成、金融市场趋势分析等场景。这些应用不仅提升了金融服务的效率,还通过精准的数据分析为决策者提供了重要的决策支持。
数据集最近研究
最新研究方向
在金融领域的人工智能研究中,Sujet Finance数据集以其全面性成为了优化语言学习模型(LLM)的关键资源。近期研究主要聚焦于利用该数据集对LLM进行微调,以提升其在金融文本处理任务中的性能,如情感分析、命名实体识别及问题回答等。这些研究不仅增强了金融应用的智能化水平,也为金融风险评估与决策提供了数据支撑,显示出其在金融科技领域的深远影响和意义。
以上内容由遇见数据集搜集并总结生成



