Touchstone Benchmark

github2024-11-15 更新2024-11-28 收录

下载链接：

https://github.com/IDEA-FinAI/Golden-Touchstone

下载链接

链接失效反馈

官方服务：

资源简介：

Touchstone Benchmark是一个简单、有效且系统的双语（中文-英文）金融大语言模型基准，包含22个数据集，用于推动金融大语言模型的研究和实施。

The Touchstone Benchmark is a simple, effective, and systematic bilingual (Chinese-English) financial large language model benchmark. It encompasses 22 datasets and is designed to advance the research and implementation of financial large language models.

创建时间：

2024-11-06

原始信息汇总

Golden-Touchstone Benchmark

概述

Golden-Touchstone 是一个简单、有效且系统的双语（中英文）金融大语言模型基准，旨在推动金融大语言模型的研究和实施。该基准类似于试金石，通过评估模型的性能来指导后续的研究。

评估方法

推理框架: 基于 llama-factory 框架进行推理。
推理脚本: eval_benchmark.sh 是推理脚本。
快速评估: evaluate_all.py 是一个基于 llama-factory 推理生成的文件的评估程序。

数据集

包含数据集数量: 22个数据集。
数据集类型: 中英文双语数据集。

模型评估

评估模型: GPT-4o, llama3, qwen2, fingpt 以及自训练的 Touchstone-GPT。
评估内容: 分析各模型的优缺点，为后续金融大语言模型的研究提供方向。

使用示例

提供了加载 tokenizer 和模型以及生成内容的代码示例。

引用

@misc{wu2024goldentouchstonecomprehensivebilingual, title={Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models}, author={Xiaojun Wu and Junxi Liu and Huanyi Su and Zhouchi Lin and Yiyan Qi and Chengjin Xu and Jiajun Su and Jiajie Zhong and Fuwei Wang and Saizhuo Wang and Fengrui Hua and Jia Li and Jian Guo}, year={2024}, eprint={2411.06272}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2411.06272}, }

搜集汇总

数据集介绍

构建方式

在构建Touchstone Benchmark数据集时，研究团队精心挑选并整合了22个代表性的任务数据集，旨在全面评估双语（中文-英文）金融大语言模型的多样性、系统性和适应性。通过系统化的数据收集和筛选过程，确保了数据集的高质量和广泛覆盖，为后续的模型研究和应用提供了坚实的基础。

特点

Touchstone Benchmark数据集的显著特点在于其双语性和专业性。该数据集不仅涵盖了中文和英文两种语言，还特别聚焦于金融领域，确保了数据的专业性和实用性。此外，数据集的构建过程中，研究团队还对GPT-4o、llama3、qwen2、fingpt等模型进行了广泛评估，提供了详尽的模型性能分析，为后续研究提供了宝贵的参考。

使用方法

使用Touchstone Benchmark数据集时，用户可以通过llama-factory框架进行推理和评估。首先，用户需在llama-factory中注册模板和数据集，并下载指定的开源模型。随后，运行eval_benchmark.sh脚本进行推理，并通过evaluate_all.py程序对生成的文件进行评估。评估结果将以json格式输出，便于后续分析和应用。

背景与挑战

背景概述

Touchstone Benchmark，由IDEA-FinAI机构主导开发，旨在为中英双语金融大语言模型提供一个简单、有效且系统的评估基准。该数据集的创建时间可追溯至2024年，主要研究人员包括Xiaojun Wu、Junxi Liu等，其核心研究问题聚焦于评估金融大语言模型在双语环境下的多样性、系统性和适应性。Touchstone Benchmark的推出，不仅为金融领域的语言模型研究提供了新的方向，也为相关领域的技术进步奠定了坚实的基础。

当前挑战

Touchstone Benchmark在构建过程中面临多项挑战。首先，双语金融数据的收集与筛选需要确保数据的代表性和质量，以反映真实金融环境中的复杂性。其次，评估模型的多样性和系统性要求开发团队设计出能够全面覆盖金融语言模型能力的测试集。此外，如何在保证评估准确性的同时，提高评估效率和可扩展性，也是该数据集面临的重要挑战。这些挑战不仅推动了数据集的精细化构建，也为后续研究提供了宝贵的经验。

常用场景

经典使用场景

在金融领域，Touchstone Benchmark 数据集的经典使用场景主要体现在对双语（中文-英文）金融大语言模型的评估与优化。该数据集通过收集和选择代表性的任务数据集，构建了一个系统化的评估框架，旨在全面评估模型的多样性、系统性和对大语言模型的适应性。通过这一框架，研究人员可以有效地比较和分析不同模型的性能，从而指导后续的模型优化和研究方向。

解决学术问题

Touchstone Benchmark 数据集解决了金融领域中双语大语言模型评估的学术难题。传统的评估方法往往局限于单一语言或特定任务，而该数据集通过系统化的多任务评估，提供了更为全面和准确的模型性能评估。这不仅有助于学术界深入理解金融大语言模型的能力边界，还为模型改进和创新提供了科学依据，推动了金融科技领域的研究进展。

衍生相关工作

Touchstone Benchmark 数据集的发布催生了一系列相关研究和工作。例如，基于该数据集，研究人员开发了多种金融大语言模型，如 Touchstone-GPT，这些模型在金融文本分析、情感识别和市场预测等任务中表现优异。此外，该数据集还激发了学术界对双语模型评估方法的深入探讨，推动了评估标准的制定和完善，进一步促进了金融科技领域的创新和发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集