Golden Touchstone

Name: Golden Touchstone
Creator: IDEA研究院, 香港科技大学（广州）, 香港科技大学, 南京大学, 华南师范大学
Published: 2024-11-10 04:09:11
License: 暂无描述

arXiv2024-11-10 更新2024-11-13 收录

下载链接：

https://github.com/IDEA-FinAI/Golden-Touchstone

下载链接

链接失效反馈

官方服务：

资源简介：

Golden Touchstone是由IDEA研究院和香港科技大学（广州）等机构联合创建的综合性双语金融大语言模型基准数据集。该数据集涵盖了22个高质量数据集，跨越中英文两种语言，涉及八个核心金融NLP任务。数据集的创建过程结合了广泛的开源数据收集和行业特定需求，旨在全面评估模型的语言理解和生成能力。Golden Touchstone的应用领域主要集中在金融领域，旨在解决现有金融基准数据集在语言和任务覆盖上的不足，提供一个全面评估金融大语言模型的工具。

Golden Touchstone is a comprehensive bilingual financial large language model benchmark dataset jointly created by institutions including IDEA Research Institute and The Hong Kong University of Science and Technology (Guangzhou), as well as other relevant organizations. This dataset includes 22 high-quality datasets, spans both Chinese and English languages, and covers eight core financial natural language processing (NLP) tasks. The development of the dataset combines extensive open-source data collection and industry-specific requirements, aiming to comprehensively evaluate the language understanding and generation capabilities of models. Golden Touchstone is mainly applied in the financial field, and it is designed to address the gaps in language and task coverage of existing financial benchmark datasets, providing a comprehensive tool for evaluating financial large language models.

提供机构：

IDEA研究院, 香港科技大学（广州）, 香港科技大学, 南京大学, 华南师范大学

创建时间：

2024-11-10

搜集汇总

数据集介绍

构建方式

Golden Touchstone数据集通过广泛的开源数据收集和行业特定需求，构建了首个全面的双语金融大型语言模型基准。该基准涵盖了从中文和英文中精选的代表性数据集，跨越八个核心金融自然语言处理任务。数据集的构建过程包括对高质量开源数据的筛选和整理，确保每个任务的数据集都具有高度的代表性和适用性。此外，数据集还提供了与任务对齐的评估指标和指导模板，以指导大型语言模型生成任务相关的响应。

特点

Golden Touchstone数据集的主要特点在于其双语性和全面性。它不仅涵盖了中文和英文两种语言，还包含了八个核心金融自然语言处理任务，如金融情感分析、内容摘要、股票走势预测和专业问答等。此外，数据集提供了高质量的数据集、任务对齐的评估指标和指导模板，确保模型在处理复杂金融信息时的准确性和适应性。通过对比分析主要模型在该基准上的表现，揭示了它们在处理复杂金融信息时的优势和局限。

使用方法

Golden Touchstone数据集的使用方法包括对现有开源通用大型语言模型和金融大型语言模型进行评估。用户可以通过该数据集对模型在金融领域的性能进行全面评估，包括语言理解能力和生成能力。此外，数据集还提供了开源的Touchstone-GPT模型，该模型通过持续预训练和金融指令微调，展示了在双语基准上的强大性能。用户可以通过GitHub访问数据集的源代码和模型权重，进一步推动金融大型语言模型的研究和应用。

背景与挑战

背景概述

随着大型语言模型在金融领域的应用日益普及，迫切需要一种标准化的方法来全面评估其性能。然而，现有的金融基准通常存在语言和任务覆盖范围有限的问题，同时还面临数据质量低和适应性不足等挑战。为了解决这些限制，我们提出了“Golden Touchstone”，这是首个全面的双语金融大型语言模型基准，涵盖了从中文和英文中精选的八个核心金融自然语言处理任务。该基准通过广泛的开放源数据收集和行业特定需求开发，包括各种金融任务，旨在全面评估模型的语言理解和生成能力。通过对比分析基准上的主要模型，如GPT-4o、Llama3、FinGPT和FinMA，我们揭示了它们在处理复杂金融信息方面的优势和局限性。此外，我们还开源了Touchstone-GPT，这是一个通过持续预训练和金融指令微调训练的金融大型语言模型，在双语基准上表现出色，但在特定任务上仍有限制。这项研究不仅为金融大型语言模型提供了实用的评估工具，还指导了未来研究和优化的开发。

当前挑战

Golden Touchstone数据集在构建过程中面临多重挑战。首先，解决领域问题的挑战在于如何全面评估金融大型语言模型在多语言环境下的性能，特别是在处理复杂金融信息时的表现。其次，构建过程中的挑战包括数据质量的保证、任务多样性的覆盖以及模型适应性的提升。具体而言，数据集需要涵盖广泛的语言和任务类型，同时确保数据的高质量和模型的有效适应性。此外，模型的评估不仅需要考虑其在现有任务上的表现，还需预测其在实际金融应用中的潜力和局限性。这些挑战要求在数据收集、模型训练和评估方法上进行创新和优化，以推动金融大型语言模型的发展。

常用场景

经典使用场景

Golden Touchstone数据集在金融领域的大语言模型评估中扮演着至关重要的角色。其经典使用场景包括对金融情感分析、内容摘要、股票走势预测和专业问答等任务的全面评估。通过整合中英文代表性数据集，该基准能够深入评估模型在处理复杂金融信息方面的语言理解和生成能力。

衍生相关工作

基于Golden Touchstone数据集，研究者们开发了Touchstone-GPT等专用金融大语言模型，并通过持续预训练和金融指令微调，显著提升了模型在双语金融任务上的表现。这些工作不仅推动了金融AI的发展，也为其他领域的多语言模型评估提供了借鉴。

数据集最近研究