pietrolesci/mnli-stats

Name: pietrolesci/mnli-stats
Creator: pietrolesci
Published: 2024-05-13 14:38:01
License: 暂无描述

Hugging Face2024-05-13 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/pietrolesci/mnli-stats

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: - config_name: pietrolesci__bert-base-uncased_mnli_53fb0761e0 features: - name: label dtype: class_label: names: '0': entailment '1': neutral '2': contradiction - name: uid dtype: int64 - name: loss dtype: float64 - name: logits sequence: float64 - name: grad_1norm dtype: float64 - name: grad_2norm dtype: float64 - name: grad_infnorm dtype: float64 - name: hutch_trace dtype: float64 - name: adv_trace dtype: float64 - name: epoch dtype: int32 splits: - name: epoch3 num_bytes: 37699392 num_examples: 392702 download_size: 35911435 dataset_size: 37699392 - config_name: pietrolesci__roberta-base_mnli_b9799b8f9b features: - name: label dtype: class_label: names: '0': entailment '1': neutral '2': contradiction - name: uid dtype: int64 - name: loss dtype: float64 - name: logits sequence: float64 - name: grad_1norm dtype: float64 - name: grad_2norm dtype: float64 - name: grad_infnorm dtype: float64 - name: hutch_trace dtype: float64 - name: adv_trace dtype: float64 - name: epoch dtype: int32 splits: - name: epoch3 num_bytes: 37699392 num_examples: 392702 download_size: 35893532 dataset_size: 37699392 configs: - config_name: pietrolesci__bert-base-uncased_mnli_53fb0761e0 data_files: - split: epoch3 path: pietrolesci__bert-base-uncased_mnli_53fb0761e0/epoch3-* - config_name: pietrolesci__roberta-base_mnli_b9799b8f9b data_files: - split: epoch3 path: pietrolesci__roberta-base_mnli_b9799b8f9b/epoch3-* ---

数据集信息： - 配置名称：pietrolesci__bert-base-uncased_mnli_53fb0761e0 特征： - 名称：标签（label），数据类型：类别标签（class_label）：类别映射： '0'：蕴含（entailment） '1'：中性（neutral） '2'：矛盾（contradiction） - 名称：唯一标识符（uid），数据类型：64位整数（int64） - 名称：损失值（loss），数据类型：64位浮点数（float64） - 名称：logits，数据类型：64位浮点数序列（sequence: float64） - 名称：1范数梯度（grad_1norm），数据类型：64位浮点数（float64） - 名称：2范数梯度（grad_2norm），数据类型：64位浮点数（float64） - 名称：无穷范数梯度（grad_infnorm），数据类型：64位浮点数（float64） - 名称：哈奇迹（hutch_trace），数据类型：64位浮点数（float64） - 名称：对抗迹（adv_trace），数据类型：64位浮点数（float64） - 名称：训练轮次（epoch），数据类型：32位整数（int32）划分集： - 名称：epoch3（第3轮次划分集），字节占用量：37699392，样本总数：392702 下载大小：35911435，数据集总占用大小：37699392 - 配置名称：pietrolesci__roberta-base_mnli_b9799b8f9b 特征： - 名称：标签（label），数据类型：类别标签（class_label）：类别映射： '0'：蕴含（entailment） '1'：中性（neutral） '2'：矛盾（contradiction） - 名称：唯一标识符（uid），数据类型：64位整数（int64） - 名称：损失值（loss），数据类型：64位浮点数（float64） - 名称：logits，数据类型：64位浮点数序列（sequence: float64） - 名称：1范数梯度（grad_1norm），数据类型：64位浮点数（float64） - 名称：2范数梯度（grad_2norm），数据类型：64位浮点数（float64） - 名称：无穷范数梯度（grad_infnorm），数据类型：64位浮点数（float64） - 名称：哈奇迹（hutch_trace），数据类型：64位浮点数（float64） - 名称：对抗迹（adv_trace），数据类型：64位浮点数（float64） - 名称：训练轮次（epoch），数据类型：32位整数（int32）划分集： - 名称：epoch3（第3轮次划分集），字节占用量：37699392，样本总数：392702 下载大小：35893532，数据集总占用大小：37699392 配置项： - 配置名称：pietrolesci__bert-base-uncased_mnli_53fb0761e0，数据文件： - 划分集：epoch3（第3轮次划分集），路径：pietrolesci__bert-base-uncased_mnli_53fb0761e0/epoch3-* - 配置名称：pietrolesci__roberta-base_mnli_b9799b8f9b，数据文件： - 划分集：epoch3（第3轮次划分集），路径：pietrolesci__roberta-base_mnli_b9799b8f9b/epoch3-*

提供机构：

pietrolesci

原始信息汇总

数据集概述

数据集1: pietrolesci__bert-base-uncased_mnli_53fb0761e0

配置名称: pietrolesci__bert-base-uncased_mnli_53fb0761e0
特征:
- label: 分类标签，包括entailment, neutral, contradiction
- uid: 整数类型
- loss: 浮点数类型
- logits: 序列浮点数类型
- grad_1norm: 浮点数类型
- grad_2norm: 浮点数类型
- grad_infnorm: 浮点数类型
- hutch_trace: 浮点数类型
- adv_trace: 浮点数类型
- epoch: 整数类型
分割:
- epoch3: 392702个样本，占用37699392字节
下载大小: 35911435字节
数据集大小: 37699392字节

数据集2: pietrolesci__roberta-base_mnli_b9799b8f9b

配置名称: pietrolesci__roberta-base_mnli_b9799b8f9b
特征:
- label: 分类标签，包括entailment, neutral, contradiction
- uid: 整数类型
- loss: 浮点数类型
- logits: 序列浮点数类型
- grad_1norm: 浮点数类型
- grad_2norm: 浮点数类型
- grad_infnorm: 浮点数类型
- hutch_trace: 浮点数类型
- adv_trace: 浮点数类型
- epoch: 整数类型
分割:
- epoch3: 392702个样本，占用37699392字节
下载大小: 35893532字节
数据集大小: 37699392字节

数据文件配置

配置1: pietrolesci__bert-base-uncased_mnli_53fb0761e0

数据文件:
- split: epoch3
- path: pietrolesci__bert-base-uncased_mnli_53fb0761e0/epoch3-*

配置2: pietrolesci__roberta-base_mnli_b9799b8f9b

数据文件:
- split: epoch3
- path: pietrolesci__roberta-base_mnli_b9799b8f9b/epoch3-*

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，数据集的构建往往依赖于原始语料与预训练模型的深度交互。该数据集以经典的MNLI语料为基础，通过BERT-base-uncased与RoBERTa-base两种主流模型进行前向推理与反向梯度计算，系统采集了包括损失值、逻辑输出、各范数梯度以及Hutchinson迹估计在内的多维统计指标。每一数据样本均关联唯一标识符与训练轮次，确保了数据轨迹的完整性与可追溯性，为模型行为分析提供了结构化的实证基础。

特点

本数据集的核心特征在于其丰富的模型内部状态记录，不仅包含传统的标签与唯一标识，更深入捕捉了模型推理过程中的损失变化、未归一化的逻辑输出以及梯度向量的多种范数度量。尤为突出的是，数据集提供了基于Hutchinson方法的迹估计与对抗性迹估计，这些高阶统计量能够间接反映模型参数空间的曲率与鲁棒性，为理解Transformer架构在自然语言推理任务中的优化动态与泛化特性提供了独特视角。

使用方法

研究者可通过HuggingFace平台直接加载该数据集的指定配置，分别访问基于BERT与RoBERTa的统计版本。数据以分片形式存储，涵盖第三训练轮次的完整样本。典型应用场景包括：分析不同模型在相同任务上的损失曲面特性，比较梯度行为以诊断优化难题，或利用迹估计探究模型的泛化能力。这些数据可作为下游分析的输入，用于可视化、统计检验或构建更复杂的模型诊断框架，推动自然语言理解模型的透明化与可解释性研究。

背景与挑战

背景概述

在自然语言处理领域，文本蕴含识别作为语义理解的核心任务，旨在判断前提与假设之间的逻辑关系。MNLI数据集作为该领域的基准，由纽约大学等机构的研究团队于2017年推出，其规模庞大、标注精细，推动了预训练语言模型的发展。pietrolesci/mnli-stats数据集在此基础上，通过记录BERT与RoBERTa模型在MNLI任务上的训练动态，如损失值、梯度范数与迹估计等统计量，为模型可解释性与优化过程分析提供了实证基础。该数据集的构建深化了对模型内部机制的理解，促进了神经网络鲁棒性与泛化能力的研究。

当前挑战

文本蕴含识别任务本身面临语义歧义性与语境依赖的挑战，模型需精准捕捉细微的逻辑差异。pietrolesci/mnli-stats数据集的构建过程中，挑战主要集中于高效采集与整合多维训练统计信息。具体而言，需在大型预训练模型上实时计算梯度范数、Hutchinson迹估计等复杂指标，确保数据的一致性与可复现性；同时，处理海量训练样本（如近40万条数据）对存储与计算资源提出了较高要求，且需平衡统计量的粒度与实用性，以支撑后续的模型诊断与分析。

常用场景

经典使用场景

在自然语言推理领域，pietrolesci/mnli-stats数据集以其丰富的模型训练统计信息而著称，为研究者提供了深入分析模型内部行为的宝贵资源。该数据集基于经典的MNLI任务构建，不仅包含原始的文本对与标签，还额外记录了模型训练过程中的损失值、梯度范数、对数概率及迹估计等关键指标。这些数据使得研究者能够细致地探索模型在推理任务中的动态表现，例如通过梯度分析揭示模型学习过程中的稳定性与收敛特性，为模型诊断与优化提供了实证基础。

衍生相关工作

围绕该数据集，已衍生出多项经典研究工作，主要集中在模型诊断与增强领域。例如，基于其梯度信息的研究揭示了预训练模型在NLI任务中的泛化瓶颈，推动了动态正则化方法的创新；利用迹估计数据的分析则促进了对抗性训练技术的改进，提升了模型的鲁棒性。这些工作不仅深化了对Transformer架构行为机制的理解，也为后续的模型压缩、高效微调等方向提供了启发。

数据集最近研究