five

AdaptLLM/FPB

收藏
Hugging Face2024-07-19 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/AdaptLLM/FPB
下载链接
链接失效反馈
官方服务:
资源简介:
FPB数据集用于ICLR 2024论文《Adapting Large Language Models via Reading Comprehension》中,研究通过持续预训练领域特定语料库来增强大型语言模型的领域知识。数据集主要用于文本分类、问答和零样本分类任务,涉及金融领域。

FPB数据集用于ICLR 2024论文《Adapting Large Language Models via Reading Comprehension》中,研究通过持续预训练领域特定语料库来增强大型语言模型的领域知识。数据集主要用于文本分类、问答和零样本分类任务,涉及金融领域。
提供机构:
AdaptLLM
原始信息汇总

数据集概述

数据集名称

  • FPB

数据文件

  • 训练数据train.csv
  • 测试数据test.csv

任务类别

  • 文本分类
  • 问答
  • 零样本分类

语言

  • 英语(en)

标签

  • 金融(finance)
搜集汇总
数据集介绍
main_image_url
构建方式
FPB数据集的构建,是通过继续在特定领域语料库上对大型语言模型进行预训练,并将预训练语料库转化为阅读理解文本,从而增强模型在领域任务中的表现。该数据集包括训练和测试两部分,分别存储于train.csv和test.csv文件中。
特点
FPB数据集的特点在于,它针对金融领域,专注于检测经济文本中的语义倾向。该数据集经过精心设计,能够帮助大型语言模型在金融领域任务中取得与大规模领域特定模型相媲美的性能。此外,数据集的构建考虑了模型的阅读理解能力,通过转化为阅读理解文本,有效提升了模型在提示任务中的表现。
使用方法
使用FPB数据集,用户可以加载训练和测试文件,对模型进行微调或评估。数据集提供了预填充的零/少样本输入指令和输出完成,方便用户复现提示结果。此外,还提供了原始数据集划分,以支持更广泛的用途,如微调或其他类型的任务处理。
背景与挑战
背景概述
FPB数据集源自2014年Pekka Malo等人的研究,该研究致力于通过语义取向分析来区分经济文本中的良性债务与不良债务。该数据集在信息科学与技术协会会刊(J. Assoc. Inf. Sci. Technol.)上发表的相关论文,对经济领域文本分析研究产生了重要影响。FPB数据集被应用于2024年ICLR会议论文《通过阅读理解适应大型语言模型》中,该论文探讨了在特定领域语料库上继续预训练大型语言模型的方法,以及如何通过阅读理解将预训练语料库转化为适合不同任务的文本格式,显著提高了生物医药、金融和法律领域任务的提示性能。
当前挑战
FPB数据集在构建和应用过程中面临的挑战主要包括:如何在保持大型语言模型在特定领域知识丰富的同时,不损害其在问题回答中的提示能力;如何有效地将大规模预训练语料库转化为阅读理解文本,以适应不同的领域任务;以及如何在大规模模型上验证所提出方法的有效性。此外,FPB数据集在金融领域的应用还面临如何准确识别和区分经济文本中的复杂语义关系,这对于提高金融领域语言模型的性能至关重要。
常用场景
经典使用场景
在自然语言处理领域,FPB数据集被广泛用于文本分类、问题回答以及零样本分类等任务。该数据集的经典使用场景在于,研究者通过持续在特定领域语料库上预训练大型语言模型,以丰富模型在相应领域的知识储备,进而提升模型在特定领域任务上的表现。
解决学术问题
FPB数据集解决了大型语言模型在持续预训练过程中,领域知识增强与提示能力下降之间的矛盾。通过将大规模预训练语料库转化为阅读理解文本,该数据集有效提升了模型在生物医学、金融和法律等领域的提示性能,为学术研究提供了新的视角和方法。
衍生相关工作
FPB数据集衍生出的相关工作包括对LLaMA-1和LLaMA-2模型进行领域适应的多个版本,如Biomedicine-LLM、Finance-LLM和Law-LLM等。这些工作不仅扩展了FPB数据集的应用范围,也为领域特定的语言模型开发提供了新的思路和实践。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作