LucasWeber/icl_consistency_test

Name: LucasWeber/icl_consistency_test
Creator: LucasWeber
Published: 2024-01-11 13:27:47
License: 暂无描述

Hugging Face2024-01-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/LucasWeber/icl_consistency_test

下载链接

链接失效反馈

官方服务：

资源简介：

ICL一致性测试数据集用于评估大型语言模型（LLM）在不同提示设置下对相同数据点的预测一致性。该测试通过测量模型在许多语义等效的提示设置下的预测一致性来量化模型对提示中任务无关信息的敏感性。数据集包含两个子任务，分别基于ANLI和MNLI数据集，并使用Cohens kappa作为评估指标。数据集由Weber等人整理，原始数据来自Nie等人和Wang等人，提示模板来自Bach等人。数据集的语言为英语，规模在10万到100万之间。

提供机构：

LucasWeber

原始信息汇总

The ICL consistency test 数据集概述

基本信息

任务类别: 文本分类
语言: 英语
数据集名称: The ICL consistency test
数据规模: 100K<n<1M

数据集描述

摘要: 该数据集用于测量大型语言模型（LLM）在多种不同提示设置下对相同数据点的预测一致性。不同设置由“因素”定义，这些因素可以是提示的特定属性（如模型展示的示例数量或用于包装特定数据点的指令类型），也可以是模型评估方式或模型类型的相关因素。通过使用任务的 add_factor() 方法，可以将这些外部因素添加到分析中。输出指标是每个因素在所有不同条件下的 Cohens kappa。kappa 值接近 1 表示因素不会改变模型预测，而接近 0 的因素会强烈改变模型预测。该测试包含两个子任务，分别评估 ANLI 和 MNLI 数据集。
数据规模: 每个子任务包含 57600 条数据（使用全部 600 个 data_IDs 时）。用户可以选择减少评估的 data_IDs 数量。

数据来源

数据集整理者:
- 重采样和排列由 Weber et al., 2023 完成；
- 原始数据由 Nie et al., 2019（ANLI）和 Wang et al., 2017（MNLI）整理；
- 模板由 Bach et al., 2022（promptsource）整理。

使用场景

该测试用于量化模型在提示中对任务无关信息的敏感性，通过测量模型在多种语义等效的提示设置下的预测一致性来实现。

数据集结构

（待补充）

数据集创建

数据集是从 MNLI 和 ANLI 数据集中抽样，并结合 promptsource 的提示模板创建的。详细信息请参考原始出版物的文档。

偏见、风险和局限性

该数据集包含来自 MNLI 和 ANLI 数据集的数据，并遵循相同的偏见、风险和局限性。

引用

如果您使用该数据集，请引用以下参考文献：

BibTeX:

@inproceedings{weber2023mind, title={Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning}, author={Weber, Lucas and Bruni, Elia and Hupkes, Dieuwke}, booktitle={Proceedings of the 27th Conference on Computational Natural Language Learning (CoNLL)}, pages={294--313}, year={2023} }

@article{weber2023icl, title={The ICL Consistency Test}, author={Weber, Lucas and Bruni, Elia and Hupkes, Dieuwke}, journal={arXiv preprint arXiv:2312.04945}, year={2023} }