arpitsh018/generated-bench-raw-hellaswag

Name: arpitsh018/generated-bench-raw-hellaswag
Creator: arpitsh018
Published: 2026-04-10 21:51:34
License: 暂无描述

Hugging Face2026-04-10 更新2026-04-12 收录

下载链接：

https://hf-mirror.com/datasets/arpitsh018/generated-bench-raw-hellaswag

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: id dtype: string - name: split dtype: string - name: image dtype: bool - name: ctx dtype: string - name: ctx_a dtype: string - name: ctx_b dtype: string - name: endings dtype: string - name: label dtype: string - name: activity_label dtype: string - name: source_id dtype: string - name: status dtype: string - name: gen_retries dtype: int64 - name: judge_retries dtype: int64 - name: generation dtype: string - name: judge dtype: string splits: - name: train num_bytes: 164529467 num_examples: 39905 - name: validation num_bytes: 42214701 num_examples: 10042 download_size: 79919156 dataset_size: 206744168 configs: - config_name: default data_files: - split: train path: data/train-* - split: validation path: data/validation-* ---

数据集信息：特征字段： - 字段名：样本ID（id），数据类型：字符串 - 字段名：数据划分标识（split），数据类型：字符串 - 字段名：图像标识（image），数据类型：布尔值 - 字段名：上下文（ctx），数据类型：字符串 - 字段名：上下文A（ctx_a），数据类型：字符串 - 字段名：上下文B（ctx_b），数据类型：字符串 - 字段名：候选结尾（endings），数据类型：字符串 - 字段名：标签（label），数据类型：字符串 - 字段名：活动标签（activity_label），数据类型：字符串 - 字段名：来源ID（source_id），数据类型：字符串 - 字段名：状态（status），数据类型：字符串 - 字段名：生成重试次数（gen_retries），数据类型：64位整数 - 字段名：评判重试次数（judge_retries），数据类型：64位整数 - 字段名：生成内容（generation），数据类型：字符串 - 字段名：评判结果（judge），数据类型：字符串数据划分： - 划分名称：训练集（train），占用字节数：164529467，样本数量：39905 - 划分名称：验证集（validation），占用字节数：42214701，样本数量：10042 下载总大小：79919156，数据集总大小：206744168 配置项： - 配置名称：默认配置（default），数据文件： - 划分：训练集（train），数据路径：data/train-* - 划分：验证集（validation），数据路径：data/validation-*

提供机构：

arpitsh018

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，评估模型对常识推理和情境理解的能力至关重要。generated-bench-raw-hellaswag数据集基于HellaSwag基准构建，其构建过程采用了对抗性过滤方法。原始HellaSwag数据集包含来自WikiHow和活动叙述的上下文-结尾对，通过生成多个可能的结尾并利用预训练模型进行对抗性筛选，确保错误选项在语法和局部连贯性上具有迷惑性，从而形成具有挑战性的多项选择题。该过程旨在模拟人类在复杂情境下的推理过程，为模型评估提供了坚实的构建基础。

特点

该数据集的核心特点在于其对抗性设计，错误选项并非随机生成，而是经过精心筛选，使其在表面流畅度上与正确答案难以区分，从而深度测试模型的深层理解和推理能力。数据集涵盖多样化的日常活动和叙述场景，内容贴近现实世界，增强了评估的泛化性和实用性。其结构化格式便于标准化评估，为研究社区提供了一个衡量模型常识推理性能的可靠基准，推动了自然语言理解技术的发展。

使用方法

使用generated-bench-raw-hellaswag数据集时，研究人员通常将其应用于模型评估阶段，通过输入上下文和多个候选结尾，要求模型预测最合理的延续。该过程可直接集成到现有评估框架中，如使用准确率作为核心指标来衡量模型性能。数据集支持批量处理，适合在多种硬件环境下进行高效实验。为确保结果可靠性，建议遵循标准评估协议，避免数据泄露，并与其他基准结合使用，以全面分析模型在常识推理任务上的优劣。

背景与挑战

背景概述

在自然语言处理领域，常识推理作为衡量模型理解人类世界知识的关键任务，长期受到学术界广泛关注。HellaSwag数据集由加州大学伯克利分校的研究团队于2019年创建，其核心研究问题聚焦于评估模型在复杂情境下进行常识推理的能力，特别是针对日常事件的延续预测。该数据集通过构建大量对抗性样本，旨在揭示模型表面统计模式学习与深层语义理解之间的差距，对推动语言模型向更具鲁棒性和可解释性的方向发展产生了深远影响。

当前挑战

HellaSwag数据集所针对的常识推理任务，其核心挑战在于模型需超越浅层语言模式匹配，深入融合对物理世界和社会情境的隐含知识，以避免被对抗性干扰项误导。在构建过程中，研究人员面临从大规模视频字幕中自动生成合理与不合理延续的难题，这要求精细设计对抗性过滤流程，确保错误选项在表面语言流畅的同时，在语义层面违背常识逻辑，从而有效区分模型的真实理解能力与数据偏差带来的虚假表现。

常用场景

经典使用场景

在自然语言处理领域，常识推理是评估模型智能水平的关键维度。HellaSwag数据集通过构建日常情境的完形填空任务，为模型提供了检验其常识理解与上下文推断能力的标准测试平台。该数据集广泛应用于语言模型的基准评估，特别是在零样本或少样本学习设置下，研究者利用其多样化的情境描述和干扰选项，系统性地衡量模型对物理世界和社会常识的掌握程度，从而推动模型在复杂推理任务上的性能提升。

衍生相关工作

以HellaSwag为基石，后续研究催生了多个拓展性工作与改进基准。例如，SWAG数据集进一步聚焦于视频描述的因果推理；Physical IQA则专门评估对物理互动的常识理解。同时，该数据集的构建方法论启发了如COPA、StoryCloze等任务的对抗性样本设计思路，共同构成了一个评估模型常识推理能力的基准家族，持续推动着预训练语言模型在更深层次认知任务上的探索与突破。

数据集最近研究