jon-tow/okapi_hellaswag

Name: jon-tow/okapi_hellaswag
Creator: jon-tow
Published: 2023-10-24 02:20:03
License: 暂无描述

Hugging Face2023-10-24 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/jon-tow/okapi_hellaswag

下载链接

链接失效反馈

官方服务：

资源简介：

okapi_hellaswag数据集是Hellaswag的多语言翻译版本。Hellaswag是一个常识推理挑战数据集，虽然对人类来说问题很简单，但对最先进的模型来说却很难。数据集通过对抗性过滤（AF）方法收集，该方法通过一系列判别器迭代选择一组机器生成的错误答案。AF方法在生成长度和复杂性达到临界Goldilocks区域的文本时表现出色，这些文本对人类来说是荒谬的，但经常被最先进的模型错误分类。数据集由Dac Lai等人策划，许可证为CC BY NC 4.0，仅允许非商业使用。

The Okapi-Hellaswag dataset is a multilingual translated version of Hellaswag. Hellaswag is a commonsense reasoning challenge dataset: while the tasks are straightforward for humans, they pose significant challenges to state-of-the-art models. The dataset is collected via the Adversarial Filtering (AF) method, which iteratively selects a set of machine-generated incorrect answers through a series of discriminators. The AF method excels at generating text that falls into a critical Goldilocks zone of length and complexity—text that appears absurd to humans but is frequently misclassified by state-of-the-art models. The dataset is curated by Dac Lai et al. and licensed under CC BY-NC 4.0, which allows only non-commercial use.

提供机构：

jon-tow

原始信息汇总

okapi_hellaswag

数据集概述

okapi_hellaswag是一个多语言版本的Hellaswag数据集，用于常识推理挑战。尽管其问题对人类来说很简单（>95%准确率），但最先进的模型却难以应对（<48%）。这通过对抗性过滤（AF）实现，这是一种数据收集范式，其中一系列判别器迭代选择一组机器生成的错误答案。AF被证明非常健壮。关键见解是将数据集示例的长度和复杂性扩大到关键的“Goldilocks”区域，其中生成的文本对人类来说很荒谬，但经常被最先进的模型错误分类。

数据集详情

数据集描述

语言: 阿拉伯语, 孟加拉语, 加泰罗尼亚语, 丹麦语, 德语, 西班牙语, 巴斯克语, 法语, 古吉拉特语, 印地语, 克罗地亚语, 匈牙利语, 亚美尼亚语, 印度尼西亚语, 意大利语, 卡纳达语, 马拉雅拉姆语, 马拉地语, 尼泊尔语, 荷兰语, 葡萄牙语, 罗马尼亚语, 俄语, 斯洛伐克语, 塞尔维亚语, 瑞典语, 泰米尔语, 泰卢固语, 乌克兰语, 越南语
许可证: CC BY NC 4.0（仅允许非商业使用）
策划者: Dac Lai, Viet 和 Van Nguyen, Chien 和 Ngo, Nghia Trung 和 Nguyen, Thuat 和 Dernoncourt, Franck 和 Rossi, Ryan A 和 Nguyen, Thien Huu

数据集来源

仓库: http://nlp.uoregon.edu/download/okapi-eval/datasets/
论文: Okapi (Lai et al., 2023)

引用

bibtex @article{dac2023okapi, title={Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback}, author={Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu}, journal={arXiv e-prints}, pages={arXiv--2307}, year={2023} }

bibtex @inproceedings{zellers2019hellaswag, title={HellaSwag: Can a Machine Really Finish Your Sentence?}, author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, booktitle ={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }

搜集汇总

数据集介绍

构建方式

okapi_hellaswag数据集是基于Hellaswag的多语言翻译版本，旨在通过对抗性过滤（Adversarial Filtering, AF）方法构建一个具有挑战性的常识推理数据集。AF方法通过一系列判别器迭代选择机器生成的错误答案，从而形成一个对现有模型具有挑战性的数据集。该方法的独特之处在于，通过增加数据样本的长度和复杂性，使其达到一个临界点，使得生成的文本对人类而言显得荒谬，但对最先进的模型却常常被误判。

特点

okapi_hellaswag数据集涵盖了多种语言，包括阿拉伯语、孟加拉语、加泰罗尼亚语、丹麦语、德语、西班牙语、巴斯克语、法语、古吉拉特语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、印尼语、意大利语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、荷兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、塞尔维亚语、瑞典语、泰米尔语、泰卢固语、乌克兰语和越南语。该数据集的特点在于其多语言覆盖和对抗性过滤机制，使其成为评估多语言模型常识推理能力的理想工具。

使用方法

okapi_hellaswag数据集主要用于评估和训练多语言模型在常识推理任务中的表现。研究人员可以通过该数据集测试模型在多语言环境下的推理能力，并利用其对抗性过滤机制生成的挑战性样本来优化模型性能。使用该数据集时，建议结合其原始论文和相关文献，深入理解其构建方法和评估标准，以确保研究结果的科学性和可靠性。

背景与挑战

背景概述

Hellaswag数据集最初由Zellers等人于2019年提出，旨在评估模型在常识推理任务中的表现。尽管其问题对人类而言极为简单（准确率超过95%），但当时的先进模型却表现不佳（准确率低于48%）。这一现象通过对抗性过滤（Adversarial Filtering, AF）技术得以实现，该技术通过一系列判别器迭代选择机器生成的错误答案，从而构建了一个具有挑战性的数据集。2023年，Dac Lai等人进一步扩展了Hellaswag数据集，推出了多语言版本的okapi_hellaswag，涵盖了包括阿拉伯语、孟加拉语、法语等在内的30种语言，旨在推动多语言自然语言处理领域的研究。

当前挑战

okapi_hellaswag数据集的核心挑战在于其多语言常识推理任务的复杂性。首先，不同语言之间的文化背景和表达方式差异显著，模型需要具备跨语言的常识推理能力，这对现有的多语言模型提出了极高的要求。其次，数据集的构建过程中，对抗性过滤技术的应用虽然有效提升了数据集的难度，但也带来了数据偏差和多样性的问题，可能导致模型在某些语言上的表现不稳定。此外，多语言数据的收集和标注成本高昂，且需要确保不同语言之间的数据质量和一致性，这对数据集的扩展和维护提出了严峻的挑战。

常用场景

经典使用场景

在自然语言处理领域，jon-tow/okapi_hellaswag数据集被广泛用于评估和提升多语言模型的常识推理能力。该数据集通过对抗性过滤技术，生成了对人类而言简单但对机器模型极具挑战性的问题，从而成为测试模型理解复杂语言结构和常识推理能力的理想工具。

衍生相关工作

基于jon-tow/okapi_hellaswag数据集，研究者们开发了一系列改进的多语言模型和评估方法。例如，Okapi项目利用该数据集进行指令调优和人类反馈强化学习，显著提升了多语言模型在常识推理任务上的表现。这些工作进一步推动了多语言自然语言处理技术的前沿发展。

数据集最近研究