HellaSwag-Pro

Name: HellaSwag-Pro
Creator: 中国科学技术大学, 阿里巴巴集团, 新加坡国立大学
Published: 2025-02-17 11:24:02
License: 暂无描述

arXiv2025-02-17 更新2025-02-27 收录

下载链接：

http://arxiv.org/abs/2502.11393v1

下载链接

链接失效反馈

官方服务：

资源简介：

HellaSwag-Pro是一个大规模的双语基准数据集，由阿里巴巴集团、中国科学技术大学和新加坡国立大学共同创建，包含11200个条目。该数据集旨在评估大型语言模型在常识推理中的鲁棒性，包含11种不同的问题变体，涵盖问题重述、逆向转换、因果推理、句子排序、情景细化、否定转换等类型，以检验模型对常识知识的真正理解能力。

HellaSwag-Pro is a large-scale bilingual benchmark dataset co-created by Alibaba Group, University of Science and Technology of China, and National University of Singapore, which contains 11,200 entries. This dataset is designed to evaluate the robustness of large language models (LLMs) in commonsense reasoning, and includes 11 distinct question variants covering question restatement, reverse transformation, causal reasoning, sentence ordering, scenario refinement, negation transformation and other types, aiming to test the model's genuine ability to understand commonsense knowledge.

提供机构：

中国科学技术大学, 阿里巴巴集团, 新加坡国立大学

创建时间：

2025-02-17

搜集汇总

数据集介绍

构建方式

HellaSwag-Pro数据集的构建采用了一种两阶段的中文数据集生成方法。首先，通过生成和筛选的方式构建了包含12,000个实例的中文HellaSwag数据集，这些实例跨越了56个类别。其次，为了提高数据集的难度，采用了一种人工参与的对抗性筛选方法，对已生成的数据集进行了迭代改进。最后，基于中文和英文的HellaSwag数据集，设计并编译了七种问题变体，以评估大型语言模型在常识推理中的鲁棒性。

特点

HellaSwag-Pro数据集的特点在于它是一个大规模的双语基准，包含11,200个案例。数据集的设计旨在评估大型语言模型在常识推理中的鲁棒性，通过七种不同的问题变体来测试模型是否真正理解常识知识，而不仅仅是记忆表达模式。这些变体包括问题重述、反向转换、因果推理、句子排序、场景细化、否定转换和关键测试，旨在覆盖常识推理的不同方面。

使用方法

使用HellaSwag-Pro数据集时，研究人员可以对其进行广泛的实验，以评估大型语言模型在常识推理任务中的性能和鲁棒性。数据集提供了多种提示策略，包括直接、中文思维链、英文思维链、中文翻译和英文翻译，以适应不同的语言模型和推理任务。此外，数据集还提供了详细的评估指标，包括原始准确率、平均鲁棒准确率、鲁棒损失准确率和一致鲁棒准确率，以全面衡量模型的性能。

背景与挑战

背景概述

HellaSwag-Pro数据集是一个大规模的双语基准，旨在评估大型语言模型（LLMs）在常识推理中的鲁棒性。该数据集由李晓元等人于2025年提出，基于广泛使用的HellaSwag基准，包含11,200个案例，通过设计并编译七种类型的问法变体。该数据集的创建旨在解决现有基准在评估LLMs的常识推理鲁棒性方面的不足，特别是针对非英语LLMs的评估。HellaSwag-Pro数据集的开发，包括中文和英文版本，为评估LLMs在常识推理任务中的鲁棒性提供了一个高质量的评价基准，并通过广泛的实验为社区提供了宝贵的见解。

当前挑战

HellaSwag-Pro数据集面临的挑战主要涉及LLMs在常识推理任务中的鲁棒性。实验结果表明，所有评估的LLMs在常识推理任务中都远非鲁棒，特别是在处理问题变体时。此外，不同类型的变体对LLMs的挑战程度不同，其中否定转换和场景细化是最具挑战性的。此外，LLMs在训练语言上的表现优于非训练语言，表明模型对训练数据的过度依赖。为了提高LLMs的鲁棒性，研究者们探索了不同的提示策略，发现使用思维链（CoT）推理和使用少样本展示可以提高LLMs的鲁棒性。

常用场景

经典使用场景

HellaSwag-Pro 数据集主要用于评估大型语言模型 (LLMs) 在常识推理任务中的鲁棒性。该数据集包含了大量的多语言场景，涵盖了日常生活、教育、工作、购物、社交、交通、健康和休闲等多个领域。通过对这些场景的描述和选择项的设置，HellaSwag-Pro 能够测试 LLMs 在处理常识推理问题时的表现，并揭示其在不同推理形式下的鲁棒性。

解决学术问题

HellaSwag-Pro 数据集解决了当前 LLMs 在常识推理任务中存在的鲁棒性问题。通过对 LLMs 在不同推理形式下的表现进行评估，该数据集揭示了 LLMs 在处理常识推理问题时的局限性，例如对否定转换和场景细化的处理能力较差。这为研究人员提供了宝贵的见解，有助于他们改进 LLMs 的设计和训练方法，提高其在常识推理任务中的鲁棒性和准确性。

衍生相关工作

HellaSwag-Pro 数据集衍生了大量的相关工作。例如，一些研究人员利用该数据集开发了新的评估指标和方法，以更全面地评估 LLMs 在常识推理任务中的表现。此外，一些研究人员还利用该数据集改进了 LLMs 的设计和训练方法，提高了其在处理常识推理问题时的鲁棒性和准确性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集