jon-tow/okapi_hellaswag
收藏okapi_hellaswag
数据集概述
okapi_hellaswag是一个多语言版本的Hellaswag数据集,用于常识推理挑战。尽管其问题对人类来说很简单(>95%准确率),但最先进的模型却难以应对(<48%)。这通过对抗性过滤(AF)实现,这是一种数据收集范式,其中一系列判别器迭代选择一组机器生成的错误答案。AF被证明非常健壮。关键见解是将数据集示例的长度和复杂性扩大到关键的“Goldilocks”区域,其中生成的文本对人类来说很荒谬,但经常被最先进的模型错误分类。
数据集详情
数据集描述
- 语言: 阿拉伯语, 孟加拉语, 加泰罗尼亚语, 丹麦语, 德语, 西班牙语, 巴斯克语, 法语, 古吉拉特语, 印地语, 克罗地亚语, 匈牙利语, 亚美尼亚语, 印度尼西亚语, 意大利语, 卡纳达语, 马拉雅拉姆语, 马拉地语, 尼泊尔语, 荷兰语, 葡萄牙语, 罗马尼亚语, 俄语, 斯洛伐克语, 塞尔维亚语, 瑞典语, 泰米尔语, 泰卢固语, 乌克兰语, 越南语
- 许可证: CC BY NC 4.0(仅允许非商业使用)
- 策划者: Dac Lai, Viet 和 Van Nguyen, Chien 和 Ngo, Nghia Trung 和 Nguyen, Thuat 和 Dernoncourt, Franck 和 Rossi, Ryan A 和 Nguyen, Thien Huu
数据集来源
- 仓库: http://nlp.uoregon.edu/download/okapi-eval/datasets/
- 论文: Okapi (Lai et al., 2023)
引用
bibtex @article{dac2023okapi, title={Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback}, author={Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu}, journal={arXiv e-prints}, pages={arXiv--2307}, year={2023} }
bibtex @inproceedings{zellers2019hellaswag, title={HellaSwag: Can a Machine Really Finish Your Sentence?}, author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, booktitle ={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }




