LucasWeber/icl_consistency_test
收藏The ICL consistency test 数据集概述
基本信息
- 任务类别: 文本分类
- 语言: 英语
- 数据集名称: The ICL consistency test
- 数据规模: 100K<n<1M
数据集描述
- 摘要: 该数据集用于测量大型语言模型(LLM)在多种不同提示设置下对相同数据点的预测一致性。不同设置由“因素”定义,这些因素可以是提示的特定属性(如模型展示的示例数量或用于包装特定数据点的指令类型),也可以是模型评估方式或模型类型的相关因素。通过使用任务的
add_factor()方法,可以将这些外部因素添加到分析中。输出指标是每个因素在所有不同条件下的 Cohens kappa。kappa 值接近 1 表示因素不会改变模型预测,而接近 0 的因素会强烈改变模型预测。该测试包含两个子任务,分别评估 ANLI 和 MNLI 数据集。 - 数据规模: 每个子任务包含 57600 条数据(使用全部 600 个 data_IDs 时)。用户可以选择减少评估的 data_IDs 数量。
数据来源
- 数据集整理者:
- 重采样和排列由 Weber et al., 2023 完成;
- 原始数据由 Nie et al., 2019(ANLI)和 Wang et al., 2017(MNLI)整理;
- 模板由 Bach et al., 2022(promptsource)整理。
使用场景
该测试用于量化模型在提示中对任务无关信息的敏感性,通过测量模型在多种语义等效的提示设置下的预测一致性来实现。
数据集结构
(待补充)
数据集创建
数据集是从 MNLI 和 ANLI 数据集中抽样,并结合 promptsource 的提示模板创建的。详细信息请参考原始出版物的文档。
偏见、风险和局限性
该数据集包含来自 MNLI 和 ANLI 数据集的数据,并遵循相同的偏见、风险和局限性。
推荐和限制
- 限制:
- 因素数量有限,未涵盖所有可能影响预测的因素。
- 目前仅针对 ANLI 和 MNLI 数据集实现。
- 外部因素(如指令调优或校准)需要用户手动添加。
引用
如果您使用该数据集,请引用以下参考文献:
BibTeX:
@inproceedings{weber2023mind, title={Mind the instructions: a holistic evaluation of consistency and interactions in prompt-based learning}, author={Weber, Lucas and Bruni, Elia and Hupkes, Dieuwke}, booktitle={Proceedings of the 27th Conference on Computational Natural Language Learning (CoNLL)}, pages={294--313}, year={2023} }
@article{weber2023icl, title={The ICL Consistency Test}, author={Weber, Lucas and Bruni, Elia and Hupkes, Dieuwke}, journal={arXiv preprint arXiv:2312.04945}, year={2023} }
数据集卡片作者
数据集卡片联系
lucasweber000@gmail.com



