five

AdaptLLM/FiQA_SA|金融数据集|情感分析数据集

收藏
hugging_face2024-07-19 更新2024-06-11 收录
金融
情感分析
下载链接:
https://hf-mirror.com/datasets/AdaptLLM/FiQA_SA
下载链接
链接失效反馈
资源简介:
FiQA_SA数据集用于ICLR 2024论文中,研究如何通过持续预训练将大型语言模型适应到特定领域。该数据集涉及金融领域的文本分类、问答和零样本分类任务。数据集的发布和更新信息包括训练和测试数据的分割,以及相关模型的开发和应用。

FiQA_SA数据集用于ICLR 2024论文中,研究如何通过持续预训练将大型语言模型适应到特定领域。该数据集涉及金融领域的文本分类、问答和零样本分类任务。数据集的发布和更新信息包括训练和测试数据的分割,以及相关模型的开发和应用。
提供机构:
AdaptLLM
原始信息汇总

数据集概述

数据集名称

  • FiQA_SA

数据集配置

  • config_name: FiQA_SA
  • data_files:
    • split: train
      • path: train.csv
    • split: test
      • path: test.csv

任务类别

  • text-classification
  • question-answering
  • zero-shot-classification

语言

  • en

标签

  • finance

数据集来源

  • 该数据集用于ICLR 2024论文《Adapting Large Language Models via Reading Comprehension》。

数据集用途

  • 用于探索大型语言模型在特定领域文本上的继续预训练,以及通过阅读理解方法改进模型在生物医学、金融和法律领域的提示性能。

相关模型

  • 该数据集支持的模型包括从LLaMA-1-7B和LLaMA-1-13B派生的领域特定模型,以及从LLaMA-2-Chat-7B派生的聊天模型。

数据集更新

  • 2024/4/2: 发布了所有评估数据集的原始数据分割(训练和测试)。
AI搜集汇总
数据集介绍
main_image_url
构建方式
FiQA_SA数据集的构建,是通过将大规模预训练语料库转化为阅读理解文本,进而针对金融领域进行持续预训练,以提升大型语言模型在特定领域的知识和问答能力。
使用方法
使用FiQA_SA数据集时,用户可以直接加载已提供的训练和测试数据分割,进行模型的微调或其他应用。数据集包含原始的训练和测试数据,方便用户针对金融问答等任务进行模型训练和评估。
背景与挑战
背景概述
FiQA_SA数据集是在金融领域内,针对金融意见挖掘与问答任务构建的。该数据集由Macedo Maia等人在2018年的WWW会议上作为开放挑战提出,旨在推动金融领域自然语言处理技术的发展。数据集的创建,为评估大型语言模型在金融领域的适应性和效能提供了重要基准,对相关研究产生了显著影响。本数据集在2024年ICLR会议论文中被引用,用于展示通过持续预训练特定领域语料库来适配大型语言模型的方法,该方法能够在不牺牲模型在金融等领域的问题解答能力的同时,增强其领域知识。
当前挑战
FiQA_SA数据集在构建和应用过程中面临的挑战主要包括:如何确保数据集中的问题与答案对具有足够的领域相关性和准确性,以及如何处理持续预训练对模型问题解答能力的负面影响。此外,数据集的构建还涉及到领域内专业术语的标注和处理,这对于没有金融背景的模型训练者来说是一个挑战。在模型应用层面,如何在保持模型泛化能力的同时,针对金融领域的具体任务进行优化,也是当前研究者和实践者需要解决的问题。
常用场景
经典使用场景
在自然语言处理领域,特别是在金融问答系统中,AdaptLLM/FiQA_SA数据集的应用显得尤为重要。该数据集被广泛用于训练大型语言模型,以增强其在金融领域的理解和回答问题的能力。经典的使用场景包括构建能够准确理解金融文献内容并据此回答专业问题的智能系统。
解决学术问题
AdaptLLM/FiQA_SA数据集解决了学术研究中如何提高大型语言模型在特定领域内的问题理解和回答准确性的问题。通过针对金融领域的持续预训练和阅读理解文本的转换,该数据集帮助模型克服了领域适应性差和提示能力下降的难题,为金融信息抽取和问答任务提供了有效的数据支撑。
实际应用
在实际应用中,AdaptLLM/FiQA_SA数据集被用来优化金融行业的智能客服、风险分析和投资决策支持系统。这些系统能够基于数据集中的金融文献和问题,提供更加精准和专业的服务,从而提升金融行业的工作效率和决策质量。
数据集最近研究
最新研究方向
在自然语言处理领域,针对大型语言模型在特定领域应用的问题,本数据集FiQA_SA的研究方向聚焦于通过持续预训练来适应特定领域。研究者们发现,虽然持续预训练能够丰富模型在特定领域的知识,但同时也会损害其问答的提示能力。受人类通过阅读理解学习的启发,研究者提出了一种将大规模预训练语料库转化为阅读理解文本的方法,该方法在生物医学、金融和法律等多个领域的任务中持续提高提示性能。特别是7B模型在性能上可与更大型的特定领域模型如BloombergGPT-50B相媲美,为金融领域的大型语言模型研究提供了新的视角和方法论。
以上内容由AI搜集并总结生成
用户留言
有没有相关的论文或文献参考?
这个数据集是基于什么背景创建的?
数据集的作者是谁?
能帮我联系到这个数据集的作者吗?
这个数据集如何下载?
点击留言
数据主题
具身智能
数据集  4098个
机构  8个
大模型
数据集  439个
机构  10个
无人机
数据集  37个
机构  6个
指令微调
数据集  36个
机构  6个
蛋白质结构
数据集  50个
机构  8个
空间智能
数据集  21个
机构  5个
5,000+
优质数据集
54 个
任务类型
进入经典数据集
热门数据集

Google Scholar

Google Scholar是一个学术搜索引擎,旨在检索学术文献、论文、书籍、摘要和文章等。它涵盖了广泛的学科领域,包括自然科学、社会科学、艺术和人文学科。用户可以通过关键词搜索、作者姓名、出版物名称等方式查找相关学术资源。

scholar.google.com 收录

UniProt

UniProt(Universal Protein Resource)是全球公认的蛋白质序列与功能信息权威数据库,由欧洲生物信息学研究所(EBI)、瑞士生物信息学研究所(SIB)和美国蛋白质信息资源中心(PIR)联合运营。该数据库以其广度和深度兼备的蛋白质信息资源闻名,整合了实验验证的高质量数据与大规模预测的自动注释内容,涵盖从分子序列、结构到功能的全面信息。UniProt核心包括注释详尽的UniProtKB知识库(分为人工校验的Swiss-Prot和自动生成的TrEMBL),以及支持高效序列聚类分析的UniRef和全局蛋白质序列归档的UniParc。其卓越的数据质量和多样化的检索工具,为基础研究和药物研发提供了无可替代的支持,成为生物学研究中不可或缺的资源。

www.uniprot.org 收录

CAMUS_public-ImageMask-Dataset

这是一个用于图像分割的CAMUS_public(心脏多结构超声分割采集)数据集。该数据集包含来自500名患者的临床检查,这些检查在法国圣艾蒂安大学医院进行,并根据当地伦理委员会的规定进行了完全匿名化处理。数据集旨在执行左心室射血分数测量,并反映了临床实践中的数据多样性,包括图像质量和病理情况的广泛变异。数据集分为训练集(450名患者)和测试集(50名新患者),原始输入图像以raw/mhd文件格式提供。

github 收录

URPC系列数据集, S-URPC2019, UDD

URPC系列数据集包括URPC2017至URPC2020DL,主要用于水下目标的检测和分类。S-URPC2019专注于水下环境的特定检测任务。UDD数据集信息未在README中详细描述。

github 收录

FLAME

FLAME数据集是由无人机拍摄的火灾图像和视频组成的公开数据集,主要用于森林火灾的监控和应急响应。该数据集包含615个训练样本和134个测试样本,分辨率为254×254。数据集的创建旨在通过高分辨率的视频和图像,帮助研究人员开发和验证用于火灾检测和监控的轻量级高效模型。FLAME数据集的应用领域主要集中在森林火灾的实时监控和应急响应,旨在提高火灾检测的准确性和效率,减少计算资源的消耗。

arXiv 收录