FallacyES

github2023-05-30 更新2024-05-31 收录

下载链接：

https://github.com/ITALIC-US/FallacyES

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含西班牙语中的原型和自发谬误，分为两部分：原型谬误来自教育材料，自发谬误来自新闻聚合网站的用户评论。数据集还包括非谬误的例子，并提供了详细的列描述。

This dataset comprises prototypical and spontaneous fallacies in Spanish, divided into two parts: the prototypical fallacies are derived from educational materials, while the spontaneous fallacies are extracted from user comments on a news aggregation website. The dataset also includes non-fallacious examples and provides detailed column descriptions.

创建时间：

2023-05-30

原始信息汇总

数据集概述

数据集名称

FallacyES

数据集描述

FallacyES是一个包含西班牙语典型和自发谬误的语料库。该数据集分为两个部分：

典型谬误：来源于教育材料的谬误示例，这些示例是从"Logical Fallacy Dataset"翻译和修正而来，该数据集是对"LOGIC"的修正版本。此外，还添加了非谬误的示例。
自发谬误：从新闻聚合网站的真实用户评论中获取的谬误示例，同样也包含了来自同一来源的非谬误示例。

数据集结构

数据集内容位于dataset文件夹中，每个部分的详细描述可在dataset/FallacyES.md文件中找到。

引用信息

如使用此数据集，请引用以下文献：

Cruz, F. L., Troyano, J. A., Enriquez, F., & Ortega, J. (2023). Detección y clasificación de falacias prototípicas y espontáneas en español. Procesamiento del Lenguaje Natural, 71.

许可证

数据集遵循Creative Commons Attribution 3.0许可证。

搜集汇总

数据集介绍

构建方式

FallacyES数据集的构建基于两个主要部分：原型谬误和自发谬误。原型谬误部分来源于教育材料，通过对现有逻辑谬误数据集的翻译和修正获得，同时添加了非谬误示例以增强数据的多样性。自发谬误部分则从新闻聚合网站的用户评论中提取，同样包含了非谬误示例。这种构建方式确保了数据集在涵盖典型谬误的同时，也能反映现实语言环境中的谬误使用情况。

特点

FallacyES数据集的特点在于其双重的数据来源和结构。它不仅包含了从教育材料中提取的原型谬误，还涵盖了从真实用户评论中收集的自发谬误。这种结构使得数据集在逻辑谬误的研究中具有较高的实用性和代表性。此外，数据集中的每个条目都附有详细的列描述，便于用户理解和应用。

使用方法

FallacyES数据集的使用方法相对直观。用户可以通过访问数据集文件夹中的文件来获取数据，每个数据文件都附有详细的列描述，帮助用户理解数据结构。此外，数据集还提供了一个Jupyter笔记本，展示了如何在研究中使用这些数据进行实验。用户应遵循数据集的使用许可，确保在非商业用途下使用，并适当引用相关研究论文。

背景与挑战

背景概述

FallacyES数据集由Cruz等人于2023年创建，旨在为西班牙语中的典型和自发谬误提供语料库支持。该数据集由西班牙的研究团队开发，主要研究人员包括Cruz、Troyano、Enriquez和Ortega。其核心研究问题在于如何检测和分类西班牙语中的逻辑谬误，尤其是在教育材料和真实用户评论中的表现。该数据集不仅为自然语言处理领域提供了新的研究资源，还为逻辑谬误的自动检测和分类任务提供了重要的数据支持，推动了相关领域的研究进展。

当前挑战

FallacyES数据集在构建过程中面临多重挑战。首先，典型谬误部分的语料来源于教育材料，需经过翻译和校正，确保其准确性和适用性。其次，自发谬误部分的数据来源于新闻聚合网站的用户评论，其语言风格多样且复杂，增加了数据标注和分类的难度。此外，如何区分谬误与非谬误的界限，尤其是在真实语境中，成为数据集构建的核心挑战之一。这些挑战不仅反映了逻辑谬误检测任务的复杂性，也为未来研究提供了重要的改进方向。

常用场景

经典使用场景

FallacyES数据集在自然语言处理领域中被广泛应用于逻辑谬误的检测与分类研究。该数据集通过包含原型谬误和自发谬误的语料，为研究者提供了一个丰富的资源，用于训练和评估模型在西班牙语文本中识别和分类逻辑谬误的能力。特别是在教育材料和真实用户评论中的应用，使得该数据集在语言学和计算语言学研究中具有重要价值。

衍生相关工作

FallacyES数据集的发布催生了一系列相关研究，特别是在逻辑谬误检测和分类领域。许多研究者基于该数据集开发了新的算法和模型，进一步提升了检测精度和效率。此外，该数据集还启发了跨语言逻辑谬误检测的研究，推动了多语言自然语言处理技术的发展，为全球范围内的语言学研究提供了新的视角。

数据集最近研究