Verbosity Compensation Dataset
收藏数据集概述
数据集来源
该数据集用于论文 "Verbosity ≠ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models" 的研究,主要用于分析大型语言模型(LLMs)中的冗余补偿(Verbosity Compensation, VC)行为。
数据集组成
数据集由以下五个原始数据集组成:
- Qasper: 来自 SCROLLS
- LongBench: 来自 LongBench
- NarrativeQA: 来自 SCROLLS
- NQ30: 来自 Lost-in-the-middle
- MMLU: 来自 MMLU
数据集处理
- 原始数据集需放置在
dataset文件夹中。 - 使用
preprocessed/{dataset_name}.py脚本进行预处理,预处理后的数据集将存储在preprocessed/dataset文件夹中。
数据集使用
- 运行 LLM 的代码位于根目录下,例如
gpt.py。 - 运行结果将存储在
result/{dataset_name}/{model_name}文件夹中。 - 预测结果已上传至 Google Drive。
数据集评估
- 评估结果位于
result/scrolls_qasper/gpt-3.5-turbo-0125/12000.json。 - 使用
analysis/calculate_VC.py脚本进行详细评估。
数据集结构
.
├── analysis # VC分析
│ └── calculate_VC.py # 计算VC统计的文件
│
├── dataset # 存储原始数据集的文件夹
|
├── metrics/metric_lib # 评估指标
│ ├── f1.py # QA任务的F1和召回率计算
│ └── longbench.py # LongBench库的F1计算
│
├── preprocessed
│ ├── dataset # 预处理后的数据集
│ └── {dataset_name}.py # 预处理原始数据集的代码
│
├── results # 运行结果的文件夹
│
├── scripts # 运行LLM的Shell文件
│ └── {model_name}.sh # 某个模型的Shell文件
│
├── {model_name}.py # 运行某个模型的代码
│ └── ... # 请查看该目录下的README
|
└── README.md # 当前阅读的文件
数据集许可证
该数据集、预测结果和代码基于 CC BY-SA 4.0 许可证。
引用
bibtex @article{zhang2024verbosity, title={Verbosity $$ackslash$neq $ Veracity: Demystify Verbosity Compensation Behavior of Large Language Models}, author={Zhang, Yusen and Das, Sarkar Snigdha Sarathi and Zhang, Rui}, journal={arXiv preprint arXiv:2411.07858}, year={2024} }




