MFTCXplain

Name: MFTCXplain
Creator: University of Southern California, University of São Paulo, Saarland University, University of Melbourne, Howard University, Portland State University, Leiden University
Published: 2025-06-24 03:44:21
License: 暂无描述

arXiv2025-06-24 更新2025-06-26 收录

下载链接：

https://github.com/franciellevargas/MFTCXplain

下载链接

链接失效反馈

官方服务：

资源简介：

MFTCXplain是一个多语言基准数据集，用于通过仇恨言论多跳解释来评估大型语言模型（LLMs）的道德推理能力。数据集包含来自葡萄牙语、意大利语、波斯语和英语的3,000条推文，带有二元仇恨言论标签、道德类别和文本跨度级理由。该数据集旨在解决当前评估基准的两个主要不足：缺乏解释道德分类的注释，限制了透明度和可解释性；以及对英语的过度关注，限制了跨不同文化背景下道德推理的评估。

MFTCXplain is a multilingual benchmark dataset for evaluating the moral reasoning capabilities of Large Language Models (LLMs) through multi-hop explanations of hate speech. This dataset contains 3,000 tweets from Portuguese, Italian, Persian and English, annotated with binary hate speech labels, moral categories, and text-span-level justifications. It aims to address two major shortcomings of current evaluation benchmarks: the lack of annotations that explain moral classifications, which limits transparency and interpretability; and the over-reliance on English, which restricts the evaluation of moral reasoning across different cultural contexts.

提供机构：

University of Southern California, University of São Paulo, Saarland University, University of Melbourne, Howard University, Portland State University, Leiden University

创建时间：

2025-06-24

搜集汇总

数据集介绍

构建方式

MFTCXplain数据集的构建基于多语言社交媒体文本，涵盖葡萄牙语、意大利语、波斯语和英语四种语言的3000条推文。数据来源于多个已有的仇恨言论检测基准数据集，经过筛选和重新标注以确保一致性。每条推文由母语者进行标注，包括二元仇恨言论标签、细粒度的道德类别（基于道德基础理论）以及文本片段级别的理由。标注过程采用多阶段方法，首先确定推文是否包含道德情感，然后标注最显著的道德类别，并高亮支持标注的文本片段。

特点

MFTCXplain数据集具有多语言性和文化多样性，特别关注了全球南方和低资源语言环境。数据集不仅包含仇恨言论的二元分类，还提供了基于道德基础理论的细粒度道德类别标注，以及解释这些标注的文本片段理由。这种多层次的标注结构使得数据集能够支持复杂的道德推理任务，并增强模型的可解释性。此外，数据集还包含了标注者的元数据，支持后续的偏见分析。

使用方法

MFTCXplain数据集可用于评估大型语言模型在仇恨言论检测和道德推理任务上的表现。研究者可以通过零样本、少样本和思维链提示等策略，测试模型在仇恨言论分类、道德情感预测和理由生成等方面的能力。数据集的多语言特性支持跨文化比较研究，而细粒度的道德类别和理由标注则可用于训练和评估可解释性模型。使用时需注意数据集的局限性，包括语言和地区偏见，以及标注者背景可能带来的影响。

背景与挑战

背景概述

MFTCXplain是由南加州大学、圣保罗大学、萨尔兰大学、墨尔本大学、霍华德大学、波特兰州立大学和莱顿大学的研究团队于2025年6月提出的多语言基准数据集。该数据集旨在通过仇恨言论的多跳解释，基于道德基础理论（Moral Foundation Theory, MFT）评估大语言模型（LLMs）的道德推理能力。数据集包含葡萄牙语、意大利语、波斯语和英语的3000条推文，每条推文均标注了二元仇恨言论标签、道德类别以及文本跨度的理由。MFTCXplain的创建填补了现有评估基准的两大空白：缺乏解释道德分类的标注，以及主要关注英语而忽视其他文化背景下的道德推理评估。该数据集对提升LLMs在跨文化环境中的透明度和可解释性具有重要意义。

当前挑战

MFTCXplain面临的挑战主要包括两个方面：领域问题的挑战和构建过程中的挑战。在领域问题方面，该数据集旨在解决LLMs在道德推理任务中与人类标注的错位问题，尤其是在预测道德情感（F1 < 0.35）和理由对齐方面的表现较弱。此外，数据集中 underrepresented languages（如波斯语和葡萄牙语）的表现尤为不足，突显了LLMs在跨文化道德推理中的局限性。在构建过程中，挑战包括多语言数据的收集与标注一致性、道德类别和理由的细粒度标注，以及如何确保标注者在不同文化背景下对道德框架的理解一致性。这些挑战需要通过更高质量的多语言数据和更精细的标注框架来应对。

常用场景

经典使用场景

MFTCXplain数据集在自然语言处理领域中被广泛用于评估大型语言模型（LLM）在道德推理任务中的表现。其经典使用场景包括多语言仇恨言论检测与道德分类任务，通过结合道德基础理论（Moral Foundation Theory）的标注框架，研究者能够分析模型在识别仇恨言论时是否能够准确关联背后的道德维度（如伤害、公平、忠诚等）。数据集覆盖葡萄牙语、意大利语、波斯语和英语，支持跨文化对比研究。

衍生相关工作

MFTCXplain推动了多个衍生研究方向：1）解释性道德推理模型（如基于多跳提示的CoT微调方法）；2）低资源语言道德对齐技术，如HateBRXplain扩展了葡萄牙语仇恨言论解释数据集；3）跨文化道德差异量化研究，相关成果见于Kennedy等（2023）对仇恨言论道德修辞的跨语言分析。数据集还被整合进ERASER评估框架，用于比较不同模型生成道德依据的合理性。

数据集最近研究