InCrediblAE_Manual_Evaluation_Dataset

github2024-07-06 更新2024-07-08 收录

下载链接：

https://github.com/GateNLP/CLEF2024_InCrediblAE_Manual_Evaluation_Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

手动评估数据集，用于评估对抗性示例与原始示例之间的语义相似性。每个样本对由至少两名注释者判断，如有冲突则邀请第三名注释者。

Manual Evaluation Dataset for assessing the semantic similarity between adversarial examples and their original counterparts. Each sample pair is judged by at least two annotators, and a third annotator will be invited to resolve any conflicting judgments.

创建时间：

2024-07-05

原始信息汇总

CLEF2024_InCrediblAE_Manual_Evaluation_Dataset

概述

手动评估数据集，用于评估CLEF 2024任务6：使用对抗性示例评估可信度评估的鲁棒性（InCrediblAE）中对抗样本与原始样本之间的语义相似性。每个样本对至少由两名标注者判断，如果两名标注者之间存在冲突，则邀请第三名标注者。

结构

README.md: 本文件
InCrediblAE_Manual_Evaluation_Dataset.csv: 匿名手动评估数据集
LICENSE: CC0 1.0 Universal许可证文件

数据集字段

adversarial_samples: 任务参与者提交的对抗样本
original_samples: 来自事实核查任务的原始样本（来自FEVER共享任务的数据，https://arxiv.org/abs/1811.10971v1）
annotator1_stance: 标注者1的语义相似性立场（0: 保留原意，1: 改变原意，2: 无意义）
annotator1_confidence: 标注者1的信心（5: 非常自信，1: 不自信）
annotator2_stance: 标注者2的语义相似性立场（0: 保留原意，1: 改变原意，2: 无意义）
annotator2_confidence: 标注者2的信心（5: 非常自信，1: 不自信）
annotator3_stance: 标注者3的语义相似性立场（0: 保留原意，1: 改变原意，2: 无意义）
annotator3_confidence: 标注者3的信心（5: 非常自信，1: 不自信）
agreed_labels: 基于多数投票的标签

数据统计（基于多数投票标签）

保留原意 (0): 318
改变原意 (1): 246
无意义 (2): 116
Cohens Kappa = 0.5240984623870923

搜集汇总

数据集介绍

构建方式

在构建InCrediblAE_Manual_Evaluation_Dataset时，研究者们采用了多重注释策略，以确保数据集的高质量。每个对抗样本与原始样本的配对均由至少两名注释者进行评估，若两位注释者的意见存在分歧，则引入第三名注释者进行仲裁。这种三重注释机制不仅提高了数据的一致性，还通过多数投票法生成了最终的标签，从而增强了数据集的可靠性和准确性。

使用方法

使用InCrediblAE_Manual_Evaluation_Dataset时，研究者可以利用其多重注释和仲裁机制来评估对抗样本与原始样本的语义相似性。数据集提供了详细的注释者立场和信心水平，以及基于多数投票的最终标签，这些信息可用于训练和验证模型，特别是在对抗样本检测和语义相似性评估领域。通过分析数据集中的统计结果和一致性指标，研究者可以更准确地理解和应用这些数据。

背景与挑战

背景概述

InCrediblAE_Manual_Evaluation_Dataset是由CLEF 2024 CheckThat!实验室任务6的核心研究团队创建的，旨在评估对抗样本与原始样本之间的语义相似性。该数据集由Piotr Przybyła等人领导，基于FEVER共享任务的数据，通过多重注释者评估对抗样本的语义变化。数据集的构建旨在提升对抗样本在可信度评估中的鲁棒性，对自然语言处理和信息验证领域具有重要影响。

当前挑战

该数据集面临的挑战包括对抗样本的生成与评估的复杂性，以及多注释者之间的一致性问题。具体而言，对抗样本的生成需要确保其在语义上与原始样本相似，同时引入足够的扰动以测试模型的鲁棒性。此外，注释者之间的意见分歧和信心水平差异增加了数据集的构建难度，需要通过多数投票和Cohen's Kappa等统计方法来确保评估的可靠性。

常用场景

经典使用场景

在自然语言处理领域，InCrediblAE_Manual_Evaluation_Dataset 主要用于评估对抗样本与原始样本之间的语义相似性。通过多重注释者的判断，该数据集能够为研究者提供一个标准化的评估框架，以衡量对抗样本在语义上是否保留了原始样本的意义。这一经典使用场景在对抗样本生成和检测的研究中尤为重要，有助于提升模型的鲁棒性和可靠性。

解决学术问题

该数据集解决了在对抗样本生成和检测中常见的学术问题，即如何量化和评估对抗样本与原始样本之间的语义相似性。通过提供多重注释者的判断和一致性标签，InCrediblAE_Manual_Evaluation_Dataset 为研究者提供了一个可靠的基准，有助于推动对抗样本生成技术的进步，并提升自然语言处理模型的鲁棒性。

实际应用

在实际应用中，InCrediblAE_Manual_Evaluation_Dataset 可用于训练和验证对抗样本检测模型，确保这些模型在面对语义相似的对抗样本时仍能保持高准确性。此外，该数据集还可用于开发和测试自然语言处理系统的鲁棒性，确保其在实际应用中能够抵御潜在的对抗攻击，从而提升系统的安全性和可靠性。

数据集最近研究