Verbosity Compensation Dataset

github2024-12-08 更新2024-12-13 收录

下载链接：

https://github.com/psunlpgroup/VerbosityLLM

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集用于研究大型语言模型中的冗长补偿行为，包含5个子数据集：Qasper、LongBench、NarrativeQA、NQ30和MMLU。

This dataset is utilized to investigate the verbose compensation behavior exhibited by large language models (LLMs). It comprises five sub-datasets: Qasper, LongBench, NarrativeQA, NQ30, and MMLU.

创建时间：

2024-11-12

原始信息汇总

数据集概述

数据集来源

该数据集用于论文 "Verbosity ≠ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models" 的研究，主要用于分析大型语言模型（LLMs）中的冗余补偿（Verbosity Compensation, VC）行为。

数据集组成

数据集由以下五个原始数据集组成：

Qasper: 来自 SCROLLS
LongBench: 来自 LongBench
NarrativeQA: 来自 SCROLLS
NQ30: 来自 Lost-in-the-middle
MMLU: 来自 MMLU

数据集处理

原始数据集需放置在 dataset 文件夹中。
使用 preprocessed/{dataset_name}.py 脚本进行预处理，预处理后的数据集将存储在 preprocessed/dataset 文件夹中。

数据集使用

运行 LLM 的代码位于根目录下，例如 gpt.py。
运行结果将存储在 result/{dataset_name}/{model_name} 文件夹中。
预测结果已上传至 Google Drive。

数据集评估

评估结果位于 result/scrolls_qasper/gpt-3.5-turbo-0125/12000.json。
使用 analysis/calculate_VC.py 脚本进行详细评估。

数据集结构

. ├── analysis # VC分析 │ └── calculate_VC.py # 计算VC统计的文件 │ ├── dataset # 存储原始数据集的文件夹 | ├── metrics/metric_lib # 评估指标 │ ├── f1.py # QA任务的F1和召回率计算 │ └── longbench.py # LongBench库的F1计算 │ ├── preprocessed
│ ├── dataset # 预处理后的数据集 │ └── {dataset_name}.py # 预处理原始数据集的代码 │ ├── results # 运行结果的文件夹 │ ├── scripts # 运行LLM的Shell文件 │ └── {model_name}.sh # 某个模型的Shell文件 │ ├── {model_name}.py # 运行某个模型的代码 │ └── ... # 请查看该目录下的README | └── README.md # 当前阅读的文件

数据集许可证

该数据集、预测结果和代码基于 CC BY-SA 4.0 许可证。

引用

bibtex @article{zhang2024verbosity, title={Verbosity $$ackslash$neq $ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models}, author={Zhang, Yusen and Das, Sarkar Snigdha Sarathi and Zhang, Rui}, journal={arXiv preprint arXiv:2411.07858}, year={2024} }

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对大型语言模型（LLMs）中一种称为‘Verbosity Compensation’（VC）的不良行为的深入研究。研究团队从多个公开数据集中选取了原始数据，包括Qasper、LongBench、NarrativeQA、NQ30和MMLU。这些数据集经过特定的预处理步骤，通过运行`preprocessed/{dataset_name}.py`脚本，将原始数据转换为适合分析VC行为的格式，并存储在`preprocessed/dataset`文件夹中。

特点

Verbosity Compensation Dataset的主要特点在于其专注于捕捉和分析大型语言模型在面对不确定性时产生的冗余响应行为。数据集不仅包含了原始的问答数据，还包含了模型生成的冗余响应及其对应的简洁响应，从而为研究者提供了对比分析的基础。此外，数据集的多样性体现在其涵盖了多个领域的问答任务，确保了研究结果的广泛适用性。

使用方法

使用该数据集时，用户需首先将原始数据集放置在`dataset`文件夹中，并通过运行相应的预处理脚本进行数据准备。随后，用户可以运行`{model.py}`脚本以执行模型推理，结果将存储在`results/{dataset_name}/{model_name}`文件夹中。为了评估模型的Verbosity Compensation行为，用户可以使用`analysis/calculate_VC.py`脚本对结果进行详细分析。

背景与挑战

背景概述

Verbosity Compensation Dataset（冗长补偿数据集）是由Zhang等人于2024年创建的，旨在研究大型语言模型（LLMs）中一种被称为‘冗长补偿’（Verbosity Compensation, VC）的不良行为。该数据集的核心研究问题是揭示LLMs在面对不确定性时，如何通过冗长的回答来补偿其不确定性的现象。这一研究不仅填补了LLMs行为研究中的空白，还为理解模型的决策过程提供了新的视角。通过结合多个领域的数据集，如Qasper、LongBench、NarrativeQA等，研究人员构建了一个多任务、多模型的评估框架，以系统性地分析冗长补偿行为对模型性能的影响。

当前挑战

Verbosity Compensation Dataset在构建过程中面临了多重挑战。首先，如何定义和量化冗长补偿行为是一个复杂的问题，因为这涉及到对模型输出文本的冗长程度与不确定性之间的关联进行精确测量。其次，数据集的构建需要整合多个来源的数据，这些数据在格式、领域和任务类型上存在显著差异，增加了预处理和统一的难度。此外，评估冗长补偿行为对模型性能的影响需要设计新的评估指标，以捕捉冗长回答与模型表现之间的微妙关系。最后，如何在不同模型和任务中推广这一现象，并确保其跨领域的适用性，也是该数据集面临的一个重要挑战。

常用场景

经典使用场景

Verbosity Compensation Dataset 主要用于研究大型语言模型（LLMs）在面对不确定性时产生的冗余补偿行为。通过该数据集，研究者可以分析模型在生成回答时如何通过增加冗余词汇、重复问题或引入模糊性来应对不确定性。这种行为类似于人类在犹豫时的表现，但可能导致回答的准确性和简洁性下降。

衍生相关工作

基于 Verbosity Compensation Dataset，研究者已开展了一系列相关工作，包括开发新的模型评估指标以量化冗余补偿行为、设计更简洁的语言生成模型，以及探索如何在模型训练过程中抑制冗余回答的生成。这些工作不仅推动了自然语言处理领域的技术进步，还为其他领域的模型行为研究提供了新的视角和方法。

数据集最近研究