pwei07/esnli

Name: pwei07/esnli
Creator: pwei07
Published: 2024-04-17 00:00:53
License: 暂无描述

Hugging Face2024-04-17 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/pwei07/esnli

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 dataset_info: features: - name: label dtype: string - name: llm_label dtype: string - name: rationale dtype: string - name: input dtype: string splits: - name: train num_bytes: 108355648 num_examples: 549367 - name: test num_bytes: 1997541 num_examples: 9824 - name: valid num_bytes: 2009715 num_examples: 9842 download_size: 36305566 dataset_size: 112362904 configs: - config_name: default data_files: - split: train path: data/train-* - split: test path: data/test-* - split: valid path: data/valid-* --- esnli with Palm rationale

许可证：Apache-2.0许可证数据集信息：特征项： - 字段名：label，数据类型：字符串 - 字段名：llm_label（大语言模型标注），数据类型：字符串 - 字段名：rationale（推理依据），数据类型：字符串 - 字段名：input，数据类型：字符串数据集拆分： - 训练集（train）：字节数为108355648，样本数为549367 - 测试集（test）：字节数为1997541，样本数为9824 - 验证集（valid）：字节数为2009715，样本数为9842 下载大小：36305566字节，数据集总存储大小：112362904字节配置项： - 配置名称：default（默认配置），数据文件路径： - 训练集：data/train-* - 测试集：data/test-* - 验证集：data/valid-* 该数据集为带PaLM（Pathways Language Model）生成推理依据的eSNLI数据集

提供机构：

pwei07

原始信息汇总

数据集概述

数据集基本信息

许可证: Apache-2.0

数据集特征

label: 数据类型为字符串
llm_label: 数据类型为字符串
rationale: 数据类型为字符串
input: 数据类型为字符串

数据集分割

训练集:
- 字节数: 108355648
- 示例数: 549367
测试集:
- 字节数: 1997541
- 示例数: 9824
验证集:
- 字节数: 2009715
- 示例数: 9842

数据集大小

下载大小: 36305566字节
数据集总大小: 112362904字节

数据文件配置

默认配置:
- 训练集路径: data/train-*
- 测试集路径: data/test-*
- 验证集路径: data/valid-*

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，数据集的构建方式直接影响模型对语义关系的理解深度。pwei07/esnli数据集基于经典的e-SNLI框架，通过整合人工标注的推理依据与原始文本对，构建了一个包含丰富解释性信息的大规模语料库。其构建过程涉及对原始SNLI数据集的扩展，为每个前提-假设对添加了详细的理由标注，这些标注由标注者针对三种推理标签（蕴含、矛盾、中性）提供，确保了数据在语义层面的可解释性和逻辑一致性。整个数据集分为训练、验证和测试三个部分，共包含超过56万条样本，为模型训练提供了坚实的结构化基础。

特点

该数据集的核心特点在于其强调推理过程的透明性与可解释性，这在自然语言处理研究中具有重要价值。每个样本不仅包含前提、假设和标签，还附带了由标注者提供的详细理由，这些理由以自然语言形式阐述了推理的逻辑依据，使得模型能够学习到语义关系背后的因果链条。此外，数据集还引入了大语言模型生成的标签和理由，为研究提供了对比视角，增强了数据的多样性和实用性。这种结合人工与自动标注的设计，使得数据集既能支持传统的分类任务，又能促进可解释人工智能的发展，适用于需要深度语义分析的应用场景。

使用方法

使用pwei07/esnli数据集时，研究者可将其应用于自然语言推理模型的训练与评估，尤其侧重于提升模型的可解释性能力。用户可以通过加载数据集的训练、验证和测试分割，直接访问输入文本、标签及理由字段，进行端到端的模型训练。在实践过程中，建议将理由信息作为辅助监督信号，融入模型的注意力机制或生成框架中，以增强推理的透明性。此外，数据集中的大语言模型标注可作为基准参考，用于比较人工与自动生成解释的差异。该数据集兼容主流深度学习框架，支持从分类到生成等多种任务，为推进可解释NLP研究提供了便捷而高效的资源。

背景与挑战

背景概述

在自然语言处理领域，自然语言推理任务旨在评估模型理解文本语义关系的能力，尤其是判断前提与假设之间的逻辑蕴含关系。eSNLI数据集作为SNLI数据集的扩展版本，由斯坦福大学等研究机构于2018年推出，其核心创新在于为每个推理样本标注了人类提供的自然语言解释，即理性标注。这一设计不仅深化了模型可解释性研究，还推动了推理模型从黑箱预测向透明决策的转变，对可解释人工智能领域产生了深远影响。

当前挑战

eSNLI数据集面临的挑战主要体现在两个方面：在领域问题层面，自然语言推理任务本身要求模型捕捉细微的语义差异和复杂的逻辑结构，而添加解释性标注进一步要求模型生成或理解人类风格的理性，这增加了建模的复杂度；在构建过程中，确保理性标注的一致性、高质量和覆盖面是一大难题，标注者需对语义关系有深刻理解，且标注过程耗时费力，容易引入主观偏差，影响数据集的可靠性与泛化能力。

常用场景

经典使用场景

在自然语言推理领域，esnli数据集以其丰富的标注信息，成为模型训练与评估的基石。该数据集通过提供前提与假设之间的逻辑关系标签，以及人类标注的推理依据，使得研究者能够深入探究语言模型如何理解文本间的蕴含、矛盾或中性关系。经典使用场景包括构建和优化基于注意力机制的神经网络，如Transformer架构，以提升模型在复杂语义推理任务上的泛化能力。

衍生相关工作

基于esnli数据集，衍生出多项经典研究工作，如可解释性自然语言推理模型的开发。这些工作包括利用注意力机制可视化推理过程，以及构建多任务学习框架，将推理依据生成与关系分类相结合。相关研究进一步拓展到对抗性样本检测和鲁棒性评估，推动了整个领域向更透明、更稳健的方向发展，为后续数据集如ANLI的创建奠定了理论基础。

数据集最近研究