swap-uniba/hellaswag_ita

Name: swap-uniba/hellaswag_ita
Creator: swap-uniba
Published: 2024-01-19 08:51:42
License: 暂无描述

Hugging Face2024-01-19 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/swap-uniba/hellaswag_ita

下载链接

链接失效反馈

官方服务：

资源简介：

HellaSwag IT数据集是HellaSwag数据集的意大利语版本，用于常识推理的自然语言推理任务。该数据集通过Argos Translate v. 1.9.1自动翻译而成。原始英文版本的HellaSwag数据集是一个用于测试机器是否能够完成句子的常识推理数据集，相关论文发表于ACL2019。数据集包含多个特征字段，如活动标签、上下文、结尾选项等，并分为训练集、验证集和测试集。

提供机构：

swap-uniba

原始信息汇总

意大利版本的HellaSwag数据集

数据集信息

特征

ind: 类型为int32。
activity_label: 类型为string。
ctx_a: 类型为string。
ctx_b: 类型为string。
ctx: 类型为string。
endings: 类型为list，包含string。
source_id: 类型为string。
split: 类型为string。
split_type: 类型为string。
label: 类型为string。

数据分割

train: 包含39905个样本，占用43232624字节。
test: 包含10003个样本，占用10791853字节。
validation: 包含10042个样本，占用11175717字节。

下载和数据集大小

下载大小: 71494896字节。
数据集大小: 65200194字节。

任务类别

问答
文本生成

引用信息

@misc{basile2023llamantino, title={LLaMAntino: LLaMA 2 Models for Effective Text Generation in Italian Language}, author={Pierpaolo Basile and Elio Musacchio and Marco Polignano and Lucia Siciliani and Giuseppe Fiameni and Giovanni Semeraro}, year={2023}, eprint={2312.09993}, archivePrefix={arXiv}, primaryClass={cs.CL} }

@inproceedings{zellers2019hellaswag, title={HellaSwag: Can a Machine Really Finish Your Sentence?}, author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, booktitle ={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，跨语言数据集的构建对于提升模型的多语言理解能力至关重要。HellaSwag IT数据集作为HellaSwag的意大利语版本，其构建过程采用了自动化翻译技术，具体使用Argos Translate工具（版本1.9.1）将原始英文数据集进行精准转换。这一方法确保了数据在语言转换过程中保持原有的语义结构和逻辑关系，为意大利语自然语言推理任务提供了高质量的基础语料。

特点

该数据集在意大利语自然语言处理研究中展现出独特价值，其核心特点在于专注于常识推理任务，每个数据实例包含一个活动标签、上下文描述以及多个可能结局选项。数据集结构清晰，涵盖训练、验证和测试三个标准划分，共计约六万条实例，支持对模型完成句子能力的评估。作为多语言评估资源，它特别适用于测试像LLaMAntino这类针对意大利语优化的语言模型，推动了意大利语文本生成与理解研究的发展。

使用方法

在应用层面，HellaSwag IT数据集主要用于评估语言模型在意大利语常识推理任务上的性能。研究人员可通过加载数据集的标准分割，利用上下文与多个结局选项构建多项选择题，以测试模型预测合理结局的能力。典型工作流程包括预处理文本、训练或微调模型，并在测试集上计算准确率等指标，从而客观衡量模型对意大利语日常场景的理解深度。

背景与挑战

背景概述

在自然语言处理领域，常识推理能力是衡量模型智能水平的关键维度。HellaSwag数据集由Rowan Zellers等学者于2019年创建，旨在评估模型在给定情境下预测合理事件结局的能力，其核心研究问题聚焦于机器是否能够真正理解并完成人类句子。该数据集通过从视频描述中提取情境，构建了多个可能结局供模型选择，从而推动了常识推理研究的发展。意大利语版本HellaSwag IT由Pierpaolo Basile等研究人员于2023年发布，作为LLaMAntino项目的一部分，专门用于评估意大利语文本生成模型的性能，为多语言自然语言处理研究提供了重要资源。

当前挑战

HellaSwag数据集所解决的领域问题是常识推理，其挑战在于模型需要超越表面语言模式，深入理解现实世界中的物理和社会常识，才能从多个看似合理的选项中选出唯一正确的结局。构建过程中的挑战则体现在数据收集与处理上：原始英文版本需从视频描述中提取并人工构造具有迷惑性的错误选项，确保测试难度；而意大利语版本通过自动翻译工具生成，可能面临语言文化差异导致的语义偏差或语境丢失，需在保持原数据集逻辑严谨性的同时，兼顾目标语言的表达习惯与准确性。

常用场景

经典使用场景

在自然语言处理领域，评估模型的语言理解与推理能力是核心任务之一。HellaSwag IT数据集作为意大利语版本的常识推理基准，其经典使用场景在于测试模型在给定上下文情境下，从多个候选结尾中选择最合理、最符合常识的续写能力。该数据集通过自动翻译原始英文HellaSwag构建，保留了原数据集的结构与挑战性，特别适用于评估意大利语语言模型在现实世界情境中的推理表现。研究者通常利用该数据集进行零样本或少样本评估，以衡量模型对日常活动逻辑的把握程度，从而揭示模型在跨语言迁移中的泛化性能。

解决学术问题

该数据集主要针对自然语言处理中的常识推理难题，即模型如何基于隐含知识进行情境化预测。它解决了传统基准测试中模型可能通过表面语言模式而非深层理解获得高分的局限，迫使模型依赖对物理世界和社会常识的把握。在学术研究中，HellaSwag IT为意大利语NLP社区提供了重要的评估工具，填补了非英语语言在高质量推理数据集上的空白，促进了跨语言模型公平比较。其存在推动了关于语言模型是否真正理解语义、以及多语言能力迁移机制的理论探讨，对提升模型的可解释性与鲁棒性具有深远意义。

衍生相关工作

围绕HellaSwag IT数据集，已衍生出多项经典研究工作。其中，LLaMAntino项目利用该数据集作为关键评估基准，训练并优化了针对意大利语的LLaMA 2模型，推动了开源意大利语大模型的发展。在跨语言迁移研究中，学者们通过比较模型在英文原版与意大利语版本上的表现，深入分析了语言特性对常识推理的影响。此外，该数据集常被纳入多语言评估框架如XTREME或BLOOM的评测体系，为衡量模型的跨语言泛化能力提供数据支持。这些工作共同丰富了意大利语NLP的生态系统，并为多语言模型的设计提供了实证基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集