five

Plutus-ben, Plutus-8B

收藏
arXiv2025-02-26 更新2025-03-01 收录
下载链接:
https://huggingface.co/collections/TheFinAI/plutus-benchmarking-greek-financialllms-67bc718fb8d897c65f1e87db
下载链接
链接失效反馈
官方服务:
资源简介:
Plutus-ben是首个希腊金融评估基准,包含五个核心金融自然语言处理任务:数值和文本命名实体识别、问答、抽象摘要和主题分类。为支持这些任务,本文介绍了三个新型高质量的希腊金融数据集:GRFinNUM、GRFinNER和GRFinQA,由具有深厚金融和语言专业知识的希腊本土专家仔细标注。这些数据集来源于现实世界的金融文件,如年度报告、考试问题和文章标题。

Plutus-ben is the first Greek financial evaluation benchmark encompassing five core financial natural language processing tasks: numerical and textual named entity recognition, question answering, abstractive summarization, and topic classification. To support these tasks, this paper introduces three novel high-quality Greek financial datasets: GRFinNUM, GRFinNER, and GRFinQA, which were meticulously annotated by native Greek experts with profound financial and linguistic expertise. These datasets are sourced from real-world financial documents such as annual reports, exam questions, and article headlines.
提供机构:
雅典经济与商业大学, 希腊
创建时间:
2025-02-26
搜集汇总
数据集介绍
main_image_url
构建方式
Plutus-ben 和 Plutus-8B 数据集的构建是为了填补希腊金融领域大型语言模型(LLMs)研究的空白。该数据集通过收集和整理希腊语金融报告、大学考试等真实世界金融文档,并经过专家希腊语母语者的严格标注,形成了三个高质量的希腊金融数据集:GRFinNUM、GRFinNER 和 GRFinQA。这些数据集涵盖了数字和文本命名实体识别、问答、摘要和主题分类等五个核心金融 NLP 任务,为 LLMs 在希腊金融领域的评估提供了全面的基础。
特点
Plutus-ben 和 Plutus-8B 数据集具有以下特点:首先,它们是专门为希腊金融领域量身定制的,填补了该领域缺乏专门基准和模型的空白;其次,数据集经过专家希腊语母语者的严格标注,保证了数据质量和高标注一致性;最后,数据集涵盖了数字和文本命名实体识别、问答、摘要和主题分类等五个核心金融 NLP 任务,为 LLMs 在希腊金融领域的评估提供了全面的基础。
使用方法
使用 Plutus-ben 和 Plutus-8B 数据集时,首先需要将数据集转换为结构化指令数据集,以便进行指令微调。然后,可以使用选定的 LLMs 在 Plutus-ben 基准上进行评估,以测试它们在希腊金融领域的性能。最后,可以将评估结果与 Plutus-8B 进行比较,以了解微调对模型性能的影响。
背景与挑战
背景概述
Plutus-ben和Plutus-8B是专为希腊金融领域设计的两个重要数据集,由Xueqing Peng等研究人员创建。这两个数据集的创建旨在填补希腊金融领域大型语言模型(LLM)研究的空白,因为希腊语的语言复杂性以及该领域特定数据集的稀缺性导致LLM在希腊金融领域的应用一直未被充分探索。Plutus-ben是一个希腊金融评估基准,涵盖了五个核心的金融自然语言处理(NLP)任务:数值和文本命名实体识别、问答、摘要生成和主题分类。Plutus-8B是第一个希腊金融LLM,使用希腊领域特定数据进行微调。这两个数据集的发布促进了可重复的研究,并推动了希腊金融NLP的发展,为金融领域的多语言包容性做出了贡献。
当前挑战
Plutus-ben和Plutus-8B面临的主要挑战包括:1)希腊金融NLP的复杂性,由于希腊语的复杂形态和领域特定术语;2)在希腊语环境中缺乏高质量的数据集,这限制了模型的性能和可迁移性;3)将金融LLM适应希腊文本的挑战,这需要特定的金融知识和语言理解能力。此外,希腊金融文本的长期语境建模和数值推理也是当前模型的难点。
常用场景
经典使用场景
Plutus-ben数据集被设计用于评估大型语言模型在希腊金融文本上的表现,特别是针对低资源语言的希腊金融领域。它包含了五个核心金融NLP任务:数值和文本命名实体识别、问答、摘要生成和主题分类。这些任务旨在帮助研究者评估LLMs在理解和处理希腊金融文本方面的能力。此外,Plutus-8B是第一个针对希腊金融领域的LLM,它是在Plutus-ben数据集上进行微调的,旨在提高LLMs在希腊金融任务上的性能。
解决学术问题
Plutus-ben数据集解决了希腊金融文本处理中的语言复杂性和低资源问题。希腊语作为一种具有复杂形态和独特正字结构的语言,对LLMs来说是一个挑战。Plutus-ben数据集的引入填补了希腊金融领域缺乏专用基准和LLMs的空白,使得研究人员能够更全面地评估LLMs在希腊金融文本处理任务上的表现。此外,Plutus-8B的微调结果显示,针对希腊金融数据进行训练的模型能够显著提高性能,这表明了在特定领域进行模型训练的重要性。
衍生相关工作
Plutus-ben数据集和Plutus-8B模型的发布为希腊金融NLP领域的研究和应用开辟了新的方向。它们可以激发更多的研究工作,例如开发针对其他低资源语言的金融NLP基准和LLMs,以及探索在特定领域进行模型训练的有效方法。此外,Plutus-ben数据集和Plutus-8B模型还可以用于开发其他希腊金融领域的应用,例如智能投资顾问、风险管理工具和金融分析软件。这些应用可以帮助金融机构和专业人士更有效地处理和分析希腊金融数据,提高工作效率和准确性。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作