Rowan/hellaswag|自然语言处理数据集|常识推理数据集

hugging_face2023-09-28 更新2024-03-04 收录

自然语言处理

常识推理

下载链接：

https://hf-mirror.com/datasets/Rowan/hellaswag

下载链接

链接失效反馈

资源简介：

HellaSwag是一个用于常识自然语言推理（NLI）的新数据集，旨在测试机器是否能完成句子。该数据集包含多种数据字段，如活动标签、上下文信息和结尾选项，用于训练、测试和验证模型。

提供机构：

Rowan

原始信息汇总

数据集概述

数据集名称: HellaSwag

数据集信息:

语言: 英语
数据集大小:
- 下载大小: 71.49 MB
- 生成数据集大小: 65.32 MB
- 总磁盘使用量: 136.81 MB

数据集结构

数据实例

训练集示例: json { "activity_label": "Removing ice from car", "ctx": "Then, the man writes over the snow covering the window of a car, and a woman wearing winter clothes smiles. then", "ctx_a": "Then, the man writes over the雪 covering the window of a car, and a woman wearing winter clothes smiles.", "ctx_b": "then", "endings": "[", the man adds wax to the windshield and cuts it.", ", a person board a ski lift, while two men supporting the head of the per...", "ind": 4, "label": "3", "source_id": "activitynet~v_-1IBHYS3L-Y", "split": "train", "split_type": "indomain" }

数据字段

ind: int32
activity_label: string
ctx_a: string
ctx_b: string
ctx: string
endings: list of string
source_id: string
split: string
split_type: string
label: string

数据分割

名称	训练集	验证集	测试集
default	39905	10042	10003

许可证信息

许可证: MIT

引用信息

bibtex @inproceedings{zellers2019hellaswag, title={HellaSwag: Can a Machine Really Finish Your Sentence?}, author={Zellers, Rowan and Holtzman, Ari and Bisk, Yonatan and Farhadi, Ali and Choi, Yejin}, booktitle ={Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics}, year={2019} }

贡献者

AI搜集汇总

数据集介绍

构建方式

HellaSwag数据集的构建基于常识自然语言推理（NLI）任务，旨在评估模型在完成句子时的能力。数据集通过收集和标注大量日常活动场景的上下文信息，结合多个可能的结尾选项，形成了一个包含丰富语境和多样性答案的测试平台。具体构建过程中，数据集从多个来源收集初始数据，并通过人工标注和验证确保数据的准确性和一致性。

特点

HellaSwag数据集的主要特点在于其高度复杂的语境设置和多样化的结尾选项，这使得模型在处理时需要具备较强的常识推理能力。数据集包含了大量的日常活动场景，涵盖了广泛的领域，如家庭生活、工作场景等，确保了数据的多样性和代表性。此外，数据集的标注过程严格，确保了每个样本的高质量。

使用方法

HellaSwag数据集适用于评估和训练自然语言处理模型，特别是在常识推理和句子完成任务上。使用该数据集时，研究者可以选择不同的数据分割（如训练集、验证集和测试集）来训练和评估模型。数据集提供了详细的字段信息，包括上下文、活动标签、结尾选项等，便于模型进行输入和输出处理。通过使用该数据集，研究者可以有效提升模型在复杂语境下的推理能力。

背景与挑战

背景概述

HellaSwag数据集由Rowan Zellers等人于2019年创建，旨在评估机器在常识自然语言推理（NLI）任务中的表现。该数据集的核心研究问题在于检验机器是否能够真正完成人类句子，特别是在涉及日常活动和常识推理的情境中。HellaSwag通过提供丰富的上下文和多种可能的结尾，挑战了现有模型在理解复杂语境和生成合理续写方面的能力。该数据集的发布对自然语言处理领域产生了深远影响，尤其是在推动模型对人类常识的理解和应用方面。

当前挑战

HellaSwag数据集的主要挑战在于其设计的高度复杂性和对模型常识推理能力的严格要求。首先，数据集中的每个实例都包含多个可能的结尾，要求模型不仅理解上下文，还需具备选择最合理续写的能力。其次，构建过程中面临的挑战包括如何确保数据集的多样性和覆盖广泛的生活场景，以及如何避免数据偏见，确保评估的公正性。此外，数据集的规模和复杂性也增加了模型训练和评估的计算成本和时间。

常用场景

经典使用场景

HellaSwag数据集在自然语言处理领域中，主要用于评估和提升模型在常识推理任务中的表现。该数据集通过提供上下文和多个可能的结尾，要求模型选择最符合常识的结尾，从而测试模型在理解人类日常活动和情境中的能力。这一任务不仅考验模型的语言理解能力，还涉及对现实世界常识的掌握，是评估模型在复杂语境下推理能力的重要工具。

实际应用

HellaSwag数据集的应用场景广泛，尤其在需要高度依赖常识推理的领域中表现突出。例如，在智能助手、自动文本生成和对话系统中，模型需要根据用户的输入和上下文，生成符合常识和逻辑的回应。此外，在教育、医疗和法律等领域，模型的常识推理能力也至关重要，能够帮助系统更好地理解和回应复杂的人类需求和情境。

衍生相关工作

HellaSwag数据集的发布激发了大量相关研究，特别是在常识推理和自然语言理解领域。许多研究者基于该数据集开发了新的模型和算法，以提升模型在常识推理任务中的表现。此外，HellaSwag的成功也启发了其他类似数据集的创建，如SWAG和COPA，这些数据集共同推动了自然语言处理领域在常识推理方面的研究进展。

以上内容由AI搜集并总结生成

用户留言

有没有相关的论文或文献参考？

这个数据集是基于什么背景创建的？

数据集的作者是谁？

能帮我联系到这个数据集的作者吗？

这个数据集如何下载？

点击留言

数据主题

具身智能

数据集 4098个

机构 8个

大模型

数据集 439个

机构 10个

无人机

数据集 37个

机构 6个

指令微调

数据集 36个

机构 6个

蛋白质结构

数据集 50个

机构 8个

空间智能

数据集 21个

机构 5个

5,000+

优质数据集

54 个

任务类型

进入经典数据集

热门数据集

中国区域交通网络数据集

该数据集包含中国各区域的交通网络信息，包括道路、铁路、航空和水路等多种交通方式的网络结构和连接关系。数据集详细记录了各交通节点的位置、交通线路的类型、长度、容量以及相关的交通流量信息。

data.stats.gov.cn 收录

中国食物成分数据库

食物成分数据比较准确而详细地描述农作物、水产类、畜禽肉类等人类赖以生存的基本食物的品质和营养成分含量。它是一个重要的我国公共卫生数据和营养信息资源，是提供人类基本需求和基本社会保障的先决条件；也是一个国家制定相关法规标准、实施有关营养政策、开展食品贸易和进行营养健康教育的基础，兼具学术、经济、社会等多种价值。本数据集收录了基于2002年食物成分表的1506条食物的31项营养成分（含胆固醇）数据，657条食物的18种氨基酸数据、441条食物的32种脂肪酸数据、130条食物的碘数据、114条食物的大豆异黄酮数据。

国家人口健康科学数据中心收录

中国高分辨率高质量PM2.5数据集（2000-2023）

ChinaHighPM2.5数据集是中国高分辨率高质量近地表空气污染物数据集（ChinaHighAirPollutants, CHAP）中PM2.5数据集。该数据集利用人工智能技术，使用模式资料填补了卫星MODIS MAIAC AOD产品的空间缺失值，结合地基观测、大气再分析和排放清单等大数据生产得到2000年至今全国无缝隙地面PM2.5数据。数据十折交叉验证决定系数R2为0.92，均方根误差RMSE为10.76 µg/m3。主要范围为整个中国地区，空间分辨率为1 km，时间分辨率为日、月、年，单位为µg/m3。注意：该数据集持续更新，如需要更多数据，请发邮件联系作者（weijing_rs@163.com; weijing@umd.edu）。数据文件中包含NC转GeoTiff的四种代码（Python、Matlab、IDL和R语言）nc2geotiff codes。

国家青藏高原科学数据中心收录

BC-MRI-SEG

BC-MRI-SEG是一个专注于乳腺癌MRI肿瘤分割的基准数据集，由中佛罗里达大学计算机视觉研究中心创建。该数据集整合了四个公开的MRI数据集，包括RIDER、ISPY1、BreastDM和DUKE，总计包含1320名患者的数据。这些数据集在MRI扫描仪的使用、配置及数据处理方法上各有不同，提供了多样化的数据来源。数据集的创建旨在解决医学影像领域中标记数据缺乏的问题，并推动开发适用于临床环境的稳健且适应性强的模型。BC-MRI-SEG的应用领域主要集中在乳腺癌的诊断和治疗评估，通过深度学习方法提高肿瘤分割的准确性和效率。

arXiv 收录

数据堂—103,282张驾驶员行为标注数据

103,282张驾驶员行为标注数据涵盖多年龄段、多时间段、多种行为（危险驾驶行为、疲劳驾驶行为、视线偏移行为）。在标注方面，对人脸72关键点（包括瞳孔）、人脸属性、手势检测框、安全带检测框、瞳孔关键点、行为类别进行标注。本套驾驶员行为标注数据可用于驾驶员行为分析等任务

魔搭社区收录