faithfulness-esnli-Qwen_Qwen3-8B-random-insertion

Hugging Face2025-09-12 更新2025-09-13 收录

下载链接：

https://huggingface.co/datasets/yeok/faithfulness-esnli-Qwen_Qwen3-8B-random-insertion

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含11个字段的数据集，包括索引、两个文本字段Qwen_Qwen3-8B-y和Qwen_Qwen3-8B-z，以及其他与文本处理相关的字段。数据集分为训练集和测试集，适用于机器学习和自然语言处理任务。

创建时间：

2025-09-01

原始信息汇总

数据集概述

基本信息

数据集名称: faithfulness-esnli-Qwen_Qwen3-8B-random-insertion
下载大小: 3,473,550 字节
数据集大小: 15,088,512.865306122 字节
示例总数: 6,000
训练集示例数: 4,000
测试集示例数: 2,000

数据结构

特征

idx: int64
Qwen_Qwen3-8B-y: string
Qwen_Qwen3-8B-z: string
sft_prompt: string
sft_gold_answer: string
y_prime_random_insertion: string
y_prime_user_bias: string
z_prime_random_insertion: string
z_prime_user_bias: string
delta: string
x_prime: string

数据划分

训练集: 4,000 个示例，占用 10,025,729.6 字节
测试集: 2,000 个示例，占用 5,062,783.265306123 字节

文件配置

默认配置:
- 训练集文件路径: data/train-*
- 测试集文件路径: data/test-*

搜集汇总

数据集介绍

构建方式

在自然语言推理领域，faithfulness-esnli-Qwen_Qwen3-8B-random-insertion数据集通过系统化方法构建。该数据集基于Qwen3-8B模型生成，采用随机插入技术对原始文本进行扰动，创建了包含原始假设y、扰动假设y_prime以及相应解释z和z_prime的样本对。构建过程包含4000个训练样本和2000个测试样本，每个样本均经过严格的偏差控制和质量验证，确保数据的一致性和可靠性。

特点

该数据集具有显著的结构化特征，包含丰富的对比学习要素。每个样本不仅提供原始输入和输出对，还包含经过随机插入处理的扰动版本，以及对应的忠实度评估指标delta值。数据集特别设计了用户偏见和随机插入两种扰动方式，为研究模型输出的稳定性和解释的可靠性提供了多维度的分析视角。特征字段的精心设计使得研究者能够深入探究语言模型在语义保持和解释生成方面的表现。

使用方法

研究者可利用该数据集进行自然语言推理模型的忠实度评估和鲁棒性测试。通过对比原始输出与扰动输出的差异，分析delta指标的变化，能够量化模型解释的稳定性。数据集支持端到端的评估流程，用户可加载训练集进行模型微调，使用测试集验证性能。特别适用于研究语言模型在对抗性文本扰动下的表现，为改进模型的可解释性和可靠性提供实证基础。

背景与挑战

背景概述

自然语言处理领域近年来对模型可解释性的需求日益增长，faithfulness-esnli-Qwen_Qwen3-8B-random-insertion数据集应运而生。该数据集基于e-SNLI基准构建，由研究团队于2023年开发，旨在评估语言模型生成解释的忠实度问题。其核心研究聚焦于通过随机插入干预技术，量化检测模型解释与真实推理过程的一致性，为可解释人工智能领域提供了重要的验证基准。

当前挑战

该数据集主要解决可解释性评估中解释与预测逻辑脱节的挑战，具体包括模型生成解释时存在的虚假关联和归因偏差问题。构建过程中需克服多重技术难点：设计有效的随机插入干预机制，确保扰动操作的语义一致性；建立精确的忠实度度量指标delta，平衡计算复杂度与评估效度；处理大规模生成数据时保持标注质量的稳定性，以及消除预训练模型固有偏见对评估结果的干扰。

常用场景

经典使用场景

在自然语言处理领域，faithfulness-esnli-Qwen_Qwen3-8B-random-insertion数据集主要用于评估和提升模型输出的忠实度。该数据集通过随机插入技术生成变体文本，考察模型在生成解释或回答时的稳定性与一致性。研究者利用其丰富的对比样本，深入分析模型在面对细微文本扰动时的表现，从而揭示生成内容的可靠性问题。

实际应用

在实际应用中，该数据集为构建高可靠性对话系统和文本生成工具提供了关键支撑。科技公司可依据其评估结果优化产品输出质量，确保生成内容的准确性和安全性。在教育领域，它帮助开发智能辅导系统生成更可靠的学习解释；在客服场景中，则助力企业构建更具信任度的自动应答平台。

衍生相关工作

基于该数据集衍生的经典工作包括忠实度度量框架的创新研究，如基于扰动一致性的评估指标开发。多项研究利用其构建了针对生成模型的可信度评估体系，推动了FaithfulAI等领域的发展。这些工作不仅扩展了数据集的应用维度，还为建立行业标准提供了重要参考。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集