FineTuneBench

github2024-11-14 更新2024-11-28 收录

下载链接：

https://github.com/kevinwu23/StanfordFineTuneBench

下载链接

链接失效反馈

官方服务：

资源简介：

FineTuneBench是一个用于评估大型语言模型微调API的评估数据集，包含1000+个示例，用于测试LLMs注入新信息和更新现有知识的能力。

FineTuneBench is an evaluation dataset for assessing fine-tuning APIs of Large Language Models (LLMs), which contains over 1000 examples and is designed to test the capability of LLMs to inject new information and update existing knowledge.

创建时间：

2024-11-07

原始信息汇总

FineTuneBench 数据集概述

数据集描述

FineTuneBench 是一个用于评估大型语言模型（LLM）微调 API 的评估数据集。该数据集包含超过 1000 个示例，涵盖 4 个任务，测试 LLM 在注入新信息和更新现有知识方面的能力。

数据集结构

datasets/: 包含每个评估数据集的 CSV 文件。
- 每个文件包含以下列：id, prompt, answer。
model_responses/: 包含每个评估模型在 FineTuneBench 上的响应文件。
prompts/: 包含每个评估任务使用的完整提示。
training_files/: 包含用于重现和评估微调任务的代码片段。

模型排名

在测试的五个模型中，微调 GPT-4o mini 在注入新知识方面最为有效，其次是 GPT-3.5 Turbo 和 GPT-4o。Gemini 1.5 Flash 和 Gemini 1.5 Pro 的微调 API 在学习和更新现有知识方面表现较差。

排名	模型	记忆能力 ↑	泛化能力 ↑
1	gpt-4o-mini-2024-07-18	0.99	0.6475
2	gpt-3.5-turbo-0125	0.8975	0.3575
3	gpt-4o-2024-08-06	0.8925	0.2775
4	gemini-1.5-flash-002	0.0925	0.0575
5	gemini-1.5-pro-002	0.05	0.05

引用

如果您发现此数据集对您的研究有用，请考虑引用我们的论文：

@misc{wu2024fintunebench, title={FineTuneBench: How well do commercial fine-tuning APIs infuse knowledge into LLMs?}, author={Eric Wu and Kevin Wu and James Zou}, year={2024}, eprint={2411.05059}, archivePrefix={arXiv}, primaryClass={cs.CL} }

搜集汇总

数据集介绍

构建方式

在构建FineTuneBench数据集时，研究团队精心设计了四个任务，涵盖了1000多个实例，旨在全面评估商业微调API在大型语言模型（LLMs）中注入新信息和更新现有知识的能力。这些任务包括摄取新信息（如近期新闻事件和新人物简介）和更新现有知识（如更新医疗指南和代码框架）。通过这种方式，数据集不仅测试了模型对新知识的记忆能力，还评估了其在实际应用中的泛化能力。

特点

FineTuneBench数据集的显著特点在于其全面性和针对性。它不仅涵盖了多种类型的知识更新任务，还通过详细的任务设计和实例选择，确保了评估的全面性和准确性。此外，数据集的结构化设计使得研究人员可以轻松地进行模型性能的比较和分析，从而为商业微调API的优化提供了宝贵的参考。

使用方法

使用FineTuneBench数据集时，研究人员可以通过访问`datasets/`目录下的CSV文件，获取每个评估任务的具体实例。每个文件包含'id'、'prompt'和'answer'等列，便于直接进行数据分析和模型测试。此外，`model_responses/`目录提供了各模型在FineTuneBench上的响应文件，`prompts/`目录则包含了用于每个评估任务的完整提示，而`training_files/`目录则提供了用于重现和评估微调任务的代码片段。

背景与挑战

背景概述

FineTuneBench数据集由斯坦福大学的Eric Wu、Kevin Wu和James Zou于2024年创建，旨在评估商业微调API在向大型语言模型（LLMs）注入新知识和更新现有知识方面的有效性。随着前沿LLMs在各领域的广泛应用，如何通过微调提升其知识更新能力成为一个关键问题。FineTuneBench通过分析包括GPT-4o和Gemini 1.5 Pro在内的五种前沿LLMs，揭示了当前商业微调API在知识注入和更新方面的局限性，为该领域的研究提供了重要参考。

当前挑战

FineTuneBench数据集面临的挑战主要集中在两个方面：一是评估商业微调API在吸收新信息和更新现有知识方面的能力，发现其普遍存在显著的不足，平均泛化准确率仅为37%；二是在更新现有知识时，如医疗指南的更新，商业微调API的表现更为有限，平均泛化准确率降至19%。此外，数据集构建过程中还需克服模型多样性和评估标准统一性的难题，以确保评估结果的客观性和全面性。

常用场景

经典使用场景

FineTuneBench数据集的经典使用场景主要集中在评估商业微调API在向大型语言模型（LLMs）注入新知识和更新现有知识方面的有效性。通过该数据集，研究者可以系统地测试和比较不同LLMs在处理新信息和更新知识任务中的表现，从而揭示这些模型在实际应用中的局限性和潜在改进方向。

实际应用

在实际应用中，FineTuneBench数据集为开发者和企业提供了一个评估和选择合适微调API的工具。通过该数据集的测试结果，用户可以更准确地了解不同LLMs在特定任务中的表现，从而选择最适合其应用需求的模型。此外，该数据集还为模型开发者提供了改进现有模型和开发新模型的参考依据。

衍生相关工作

FineTuneBench数据集的发布催生了一系列相关研究工作，特别是在大型语言模型微调效果评估和优化方面。研究者们基于该数据集进行了深入分析，提出了多种改进微调效果的方法，并开发了新的评估指标。这些工作不仅推动了LLMs在知识注入和更新任务中的性能提升，还为相关领域的研究提供了新的思路和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集