five

jon-tow/okapi_hellaswag

收藏
Hugging Face2023-10-24 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/jon-tow/okapi_hellaswag
下载链接
链接失效反馈
官方服务:
资源简介:
okapi_hellaswag数据集是Hellaswag的多语言翻译版本。Hellaswag是一个常识推理挑战数据集,虽然对人类来说问题很简单,但对最先进的模型来说却很难。数据集通过对抗性过滤(AF)方法收集,该方法通过一系列判别器迭代选择一组机器生成的错误答案。AF方法在生成长度和复杂性达到临界Goldilocks区域的文本时表现出色,这些文本对人类来说是荒谬的,但经常被最先进的模型错误分类。数据集由Dac Lai等人策划,许可证为CC BY NC 4.0,仅允许非商业使用。

The Okapi-Hellaswag dataset is a multilingual translated version of Hellaswag. Hellaswag is a commonsense reasoning challenge dataset: while the tasks are straightforward for humans, they pose significant challenges to state-of-the-art models. The dataset is collected via the Adversarial Filtering (AF) method, which iteratively selects a set of machine-generated incorrect answers through a series of discriminators. The AF method excels at generating text that falls into a critical Goldilocks zone of length and complexity—text that appears absurd to humans but is frequently misclassified by state-of-the-art models. The dataset is curated by Dac Lai et al. and licensed under CC BY-NC 4.0, which allows only non-commercial use.
提供机构:
jon-tow
原始信息汇总

okapi_hellaswag

数据集概述

okapi_hellaswag是一个多语言版本的Hellaswag数据集,用于常识推理挑战。尽管其问题对人类来说很简单(>95%准确率),但最先进的模型却难以应对(<48%)。这通过对抗性过滤(AF)实现,这是一种数据收集范式,其中一系列判别器迭代选择一组机器生成的错误答案。AF被证明非常健壮。关键见解是将数据集示例的长度和复杂性扩大到关键的“Goldilocks”区域,其中生成的文本对人类来说很荒谬,但经常被最先进的模型错误分类。

数据集详情

数据集描述

  • 语言: 阿拉伯语, 孟加拉语, 加泰罗尼亚语, 丹麦语, 德语, 西班牙语, 巴斯克语, 法语, 古吉拉特语, 印地语, 克罗地亚语, 匈牙利语, 亚美尼亚语, 印度尼西亚语, 意大利语, 卡纳达语, 马拉雅拉姆语, 马拉地语, 尼泊尔语, 荷兰语, 葡萄牙语, 罗马尼亚语, 俄语, 斯洛伐克语, 塞尔维亚语, 瑞典语, 泰米尔语, 泰卢固语, 乌克兰语, 越南语
  • 许可证: CC BY NC 4.0(仅允许非商业使用)
  • 策划者: Dac Lai, Viet 和 Van Nguyen, Chien 和 Ngo, Nghia Trung 和 Nguyen, Thuat 和 Dernoncourt, Franck 和 Rossi, Ryan A 和 Nguyen, Thien Huu

数据集来源

  • 仓库: http://nlp.uoregon.edu/download/okapi-eval/datasets/
  • 论文: Okapi (Lai et al., 2023)

引用

bibtex @article{dac2023okapi, title={Okapi: Instruction-tuned Large Language Models in Multiple Languages with Reinforcement Learning from Human Feedback}, author={Dac Lai, Viet and Van Nguyen, Chien and Ngo, Nghia Trung and Nguyen, Thuat and Dernoncourt, Franck and Rossi, Ryan A and Nguyen, Thien Huu}, journal={arXiv e-prints}, pages={arXiv--2307}, year={2023} }

bibtex @inproceedings{zellers2019hellaswag, title={HellaSwag: Can a Machine Really Finish Your Sentence?}, author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, booktitle ={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }

搜集汇总
数据集介绍
main_image_url
构建方式
okapi_hellaswag数据集是基于Hellaswag的多语言翻译版本,旨在通过对抗性过滤(Adversarial Filtering, AF)方法构建一个具有挑战性的常识推理数据集。AF方法通过一系列判别器迭代选择机器生成的错误答案,从而形成一个对现有模型具有挑战性的数据集。该方法的独特之处在于,通过增加数据样本的长度和复杂性,使其达到一个临界点,使得生成的文本对人类而言显得荒谬,但对最先进的模型却常常被误判。
特点
okapi_hellaswag数据集涵盖了多种语言,包括阿拉伯语、孟加拉语、加泰罗尼亚语、丹麦语、德语、西班牙语、巴斯克语、法语、古吉拉特语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、印尼语、意大利语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、荷兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、塞尔维亚语、瑞典语、泰米尔语、泰卢固语、乌克兰语和越南语。该数据集的特点在于其多语言覆盖和对抗性过滤机制,使其成为评估多语言模型常识推理能力的理想工具。
使用方法
okapi_hellaswag数据集主要用于评估和训练多语言模型在常识推理任务中的表现。研究人员可以通过该数据集测试模型在多语言环境下的推理能力,并利用其对抗性过滤机制生成的挑战性样本来优化模型性能。使用该数据集时,建议结合其原始论文和相关文献,深入理解其构建方法和评估标准,以确保研究结果的科学性和可靠性。
背景与挑战
背景概述
Hellaswag数据集最初由Zellers等人于2019年提出,旨在评估模型在常识推理任务中的表现。尽管其问题对人类而言极为简单(准确率超过95%),但当时的先进模型却表现不佳(准确率低于48%)。这一现象通过对抗性过滤(Adversarial Filtering, AF)技术得以实现,该技术通过一系列判别器迭代选择机器生成的错误答案,从而构建了一个具有挑战性的数据集。2023年,Dac Lai等人进一步扩展了Hellaswag数据集,推出了多语言版本的okapi_hellaswag,涵盖了包括阿拉伯语、孟加拉语、法语等在内的30种语言,旨在推动多语言自然语言处理领域的研究。
当前挑战
okapi_hellaswag数据集的核心挑战在于其多语言常识推理任务的复杂性。首先,不同语言之间的文化背景和表达方式差异显著,模型需要具备跨语言的常识推理能力,这对现有的多语言模型提出了极高的要求。其次,数据集的构建过程中,对抗性过滤技术的应用虽然有效提升了数据集的难度,但也带来了数据偏差和多样性的问题,可能导致模型在某些语言上的表现不稳定。此外,多语言数据的收集和标注成本高昂,且需要确保不同语言之间的数据质量和一致性,这对数据集的扩展和维护提出了严峻的挑战。
常用场景
经典使用场景
在自然语言处理领域,jon-tow/okapi_hellaswag数据集被广泛用于评估和提升多语言模型的常识推理能力。该数据集通过对抗性过滤技术,生成了对人类而言简单但对机器模型极具挑战性的问题,从而成为测试模型理解复杂语言结构和常识推理能力的理想工具。
衍生相关工作
基于jon-tow/okapi_hellaswag数据集,研究者们开发了一系列改进的多语言模型和评估方法。例如,Okapi项目利用该数据集进行指令调优和人类反馈强化学习,显著提升了多语言模型在常识推理任务上的表现。这些工作进一步推动了多语言自然语言处理技术的前沿发展。
数据集最近研究
最新研究方向
在自然语言处理领域,多语言常识推理任务正逐渐成为研究热点。jon-tow/okapi_hellaswag数据集作为Hellaswag的多语言扩展版本,为跨语言模型评估提供了重要资源。该数据集通过对抗性过滤技术生成具有挑战性的错误选项,使得即使是当前最先进的模型也难以达到人类水平的准确率。近年来,研究者们利用该数据集探索了多语言指令调优模型在常识推理任务中的表现,尤其是在低资源语言上的泛化能力。这一研究方向不仅推动了多语言模型的性能提升,还为跨语言知识迁移和模型鲁棒性研究提供了新的视角。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作