FAINA

Name: FAINA
Creator: Fondazione Bruno Kessler, Italy
Published: 2025-02-20 00:18:44
License: 暂无描述

arXiv2025-02-20 更新2025-02-21 收录

下载链接：

https://github.com/dhfbk/faina

下载链接

链接失效反馈

官方服务：

资源简介：

FAINA数据集是由Fondazione Bruno Kessler研究机构创建的，包含超过11K的细粒度标注，涵盖20种谬误类型，这些标注是在两个专家注释者的多轮讨论和标注过程中产生的。该数据集聚焦于意大利语在社交媒体上关于移民、气候变化和公共卫生问题的讨论，旨在解决细粒度谬误检测和人类标签变异的问题。

The FAINA dataset was created by the research institution Fondazione Bruno Kessler. It contains over 11K fine-grained annotations covering 20 types of fallacies. These annotations were generated through a multi-round discussion and annotation process involving two expert annotators. Focused on Italian-language social media discussions regarding immigration, climate change, and public health issues, this dataset aims to address the challenges of fine-grained fallacy detection and human label variation.

提供机构：

Fondazione Bruno Kessler, Italy

创建时间：

2025-02-20

搜集汇总

数据集介绍

构建方式

FAINA数据集的构建方式是通过从Twitter API收集意大利语社交媒体帖子，这些帖子讨论了移民、气候变化和公共卫生等议题。数据集收集了从2019年1月1日至2022年12月31日的四年时间范围内的帖子。为了减少时间和主题偏差，研究人员使用了一个手动编制的包含436个关键词的列表，这些关键词是从可靠的词汇表和手册中提取的，并扩展到涵盖所有适用的语法性别和数量。他们还保留了包含≥5个标记的帖子，并选择了点赞和转发数量最多的帖子，以关注对社会影响最大的信息。最后，他们保留了每个月和每个主题排名前10的帖子，并排除了由同一用户在最有影响力的帖子之后发布的消息，从而避免了作者偏差。为了进一步减少抽样偏差，他们重新抽样，直到为每个月和每个主题组合获得k个帖子。数据集最终包含1,440个帖子，这些帖子在主题和时间上进行了平衡，以便进行细粒度的、具有重叠的跨度级标注。

使用方法

使用FAINA数据集的方法包括以下几个步骤：1. 数据集分为k个训练和测试数据集，使用k折交叉验证（k=5）。2. 使用训练数据部分对预训练模型进行微调，使用测试部分进行评估。3. 为了模型选择，将训练分割进一步分为训练（80%）和开发（20%），并根据开发数据部分上的平均性能选择最佳模型配置。4. 对于POST任务，使用标准的微平均分数来评估性能。对于更具挑战性的SPAN任务，采用Da San Martino等人（2019b）提出的精度、召回率和F1分数的变体，并将其扩展到在标记上操作。5. 为了考虑标注错误的严重性，使用严格和软评估模式计算结果。6. FAINA包含多个并行注释（即多个视图），这些视图是同等可靠的。为了平等地考虑所有测试集版本，同时避免偏袒那些有更多/更少注释的测试集（从而避免偏袒过度/低估谬误的模型），我们在单个测试集上对分数进行宏平均。

背景与挑战

背景概述

FAINA数据集是首个拥抱多种可能性答案和自然分歧的谬误检测数据集。它由来自意大利的Alan Ramponi、Agnese Daffara和Sara Tonelli三位研究人员创建，并于2025年2月19日在arXiv上发布。该数据集包含超过11K的跨度级标注，跨越20种谬误类型，涉及意大利语社交媒体帖子中的移民、气候变化和公共卫生问题。FAINA的核心研究问题在于识别社交媒体中的谬误，这对于限制有害内容的传播和发展个体的批判性思维能力至关重要。该数据集的独特之处在于它不仅提供了细粒度的文本段标注，而且还考虑了人类标签变化，从而更准确地反映了现实世界中的谬误识别情况。FAINA的发布对谬误检测领域产生了深远的影响，为研究人员提供了宝贵的数据资源，推动了谬误检测和人类标签变化研究的发展。

当前挑战

FAINA数据集在构建过程中面临了多项挑战。首先，谬误检测本身就是一个开放性问题，对于人类和机器来说都极具挑战性。其次，现有的谬误检测数据集要么包含粗粒度的标注，要么假设在给定的文本段中只能表达一种谬误。然而，多种谬误可能在文本中重叠，而了解谬误发生的位置对于教育目的至关重要。此外，当前的数据集通过标签聚合来编码单一的“地面真相”，这消除了由于多种可能性答案和真实分歧而在谬误标注中自然发生的人类标签变化。为了解决这些挑战，FAINA数据集采用了细粒度的文本段标注，并设计了能够同时考虑多个（同等可靠）测试集和任务特性的评估框架。实验结果表明，基于多任务和多标签的Transformer方法在各种设置中都是强有力的基线。然而，零样本设置下的生成式大型语言模型（LLM）在实现令人满意的性能方面仍存在差距。因此，未来研究需要进一步探索如何利用LLM在零样本设置下进行细粒度的谬误检测。

常用场景

经典使用场景

在自然语言处理领域，FAINA数据集被广泛应用于细粒度谬误检测的研究。该数据集包含了超过11,000个跨度级别的标注，跨越了20种谬误类型，这些标注是在两位专家注释者的讨论和多轮迭代下完成的。这使得FAINA成为了研究谬误检测和人类标签变化的重要资源。该数据集的一个经典使用场景是训练和评估谬误检测模型，特别是那些能够处理多个可能答案和自然分歧的模型。通过对FAINA数据集的深入研究，研究人员可以探索如何更好地理解和识别日常论证中的谬误，从而限制有害内容的传播，并促进民主辩论。

解决学术问题

FAINA数据集解决了当前谬误检测数据集中存在的几个关键问题。首先，它提供了细粒度级别的标注，这使得研究人员能够准确地定位谬误发生的文本段。其次，它包含了人类标签变化，这使得模型能够更好地模拟真实世界中的歧义和分歧。最后，FAINA数据集覆盖了多个主题，包括移民、气候变化和公共卫生，这使得研究人员能够在不同的语境下研究和评估谬误检测模型。这些特点使得FAINA成为了谬误检测研究的重要资源，并为相关领域的研究提供了新的视角。

实际应用

FAINA数据集在实际应用中具有广泛的应用场景。例如，它可以被用于开发社交媒体平台上的谬误检测工具，帮助用户识别和过滤有害内容。此外，它还可以被用于教育领域，帮助人们提高批判性思维能力，从而更好地理解和识别日常论证中的谬误。此外，FAINA数据集还可以被用于开发用于自动生成谬误检测报告的工具，帮助研究人员快速分析和总结文本中的谬误。这些应用场景使得FAINA数据集成为了谬误检测研究的重要资源，并为相关领域的研究提供了新的视角。

数据集最近研究