FarExStance
收藏arXiv2024-12-19 更新2024-12-20 收录
下载链接:
https://github.com/Zarharan/FarExStance
下载链接
链接失效反馈官方服务:
资源简介:
FarExStance是一个专门为波斯语立场检测任务设计的数据集,包含5874个独特的声明,这些声明基于从100多个波斯语新闻机构网站收集的新闻标题和摘要生成。数据集包含26307个实例,来源于波斯语新闻机构、Twitter和Instagram。每个实例都被手动分类为四个类别之一:同意、不同意、讨论或不相关,并附有句子级别的证据支持。该数据集的创建旨在填补波斯语立场检测和可解释自然语言处理资源的空白,适用于立场检测、证据检索、事实核查和摘要等多种任务。
FarExStance is a specialized dataset designed for Persian stance detection tasks. It contains 5,874 unique claims generated from news headlines and abstracts collected from over 100 Persian news agency websites. The dataset consists of 26,307 instances sourced from Persian news agencies, Twitter, and Instagram. Each instance is manually classified into one of four categories: agree, disagree, discuss, or unrelated, with sentence-level evidence provided to support the annotation. This dataset was created to fill the gap in available resources for Persian stance detection and explainable natural language processing, and is applicable to a variety of tasks including stance detection, evidence retrieval, fact-checking, and summarization.
提供机构:
德黑兰Dadmatech公司
创建时间:
2024-12-19
原始信息汇总
FarExStance: Explainable Stance Detection for Farsi
数据集概述
FarExStance 是首个也是最大的基于声明的可解释立场检测波斯语数据集。该数据集通过提供高质量的标注和支持证据,推动了立场检测领域的新研究。
数据集内容
数据集包含以下内容:
news_agency_websites_list.json:包含130多个波斯语新闻机构网站的列表,用于收集六个月内的政治、经济和体育新闻。data/b2c/:包含用于文章到声明(article2claim)和社会媒体领域的训练、开发和测试集。data/h2c/:包含用于标题到声明(head2claim)任务的训练、开发和测试集。
实验复现
- 提供了
*.sh脚本,用于复现实验。例如,使用huggingface_exp.sh脚本可以复现使用模型如 Command-R-32B 和 Llama-3.1-70B 在测试集上的零样本和少样本结果。 - 生成的结果(预测的立场和解释)存储在
data/目录下相应的文件夹中。 - 每个参数的详细解释可以在
rag_inference.py文件中找到。
搜集汇总
数据集介绍

构建方式
FarExStance数据集的构建过程分为两个主要阶段:声明生成和声明标注。首先,标注者根据从100多个波斯语新闻机构网站收集的新闻标题和摘要生成独特的声明。随后,这些声明被用于从波斯语新闻机构、Twitter和Instagram中收集相关实例。每个实例都由标注者手动分类为四种立场之一:同意、不同意、讨论或无关。此外,标注者还提供了句子级别的证据来支持其分类。整个过程通过多轮的标注和验证,确保了数据集的高质量和一致性。
特点
FarExStance数据集的主要特点在于其针对波斯语的可解释立场检测任务设计,包含了丰富的声明、立场标签以及相应的证据。数据集涵盖了26,307个实例,涉及5,874个独特的声明,具有广泛的领域覆盖,包括新闻、社交媒体等。此外,数据集还提供了详细的句子级证据,使得模型不仅能够预测立场,还能生成解释,从而增强了模型的透明性和可解释性。
使用方法
FarExStance数据集可用于多种自然语言处理任务,包括立场检测、证据检索、事实核查和摘要生成。研究者可以通过该数据集训练和评估模型,特别是在零样本、少样本和参数高效微调设置下的表现。数据集的声明和证据部分可以用于构建可解释的立场检测模型,帮助模型在预测立场的同时生成合理的解释。此外,数据集的多领域覆盖和多源数据结构为跨领域研究提供了丰富的资源。
背景与挑战
背景概述
FarExStance 是由 Dublin City University、Iran University of Science and Technology 等机构的研究人员共同开发的首个针对波斯语的可解释立场检测数据集。该数据集的核心研究问题是如何在波斯语环境中进行立场检测,并提供相应的解释。FarExStance 数据集包含了 5,874 个独特的声明,这些声明基于从 100 多个波斯语新闻机构网站收集的新闻标题和摘要生成。这些声明随后被用于从新闻机构、Twitter 和 Instagram 等平台收集 26,307 个实例。每个实例都被手动分类为四类之一:同意、反对、讨论或无关,并附有句子级别的证据支持。该数据集的创建旨在填补波斯语立场检测和可解释自然语言处理领域的资源空白,并为相关研究提供基础。
当前挑战
FarExStance 数据集面临的挑战主要体现在两个方面:首先,立场检测任务本身具有复杂性,尤其是在处理多语言和多来源的数据时,如何准确识别文本对某一声明的立场是一个难题。其次,构建过程中遇到的挑战包括数据标注的一致性问题、不同平台数据格式的差异以及如何确保解释的准确性和可解释性。此外,波斯语作为一种资源相对较少的语言,缺乏相关的预训练模型和工具,这也增加了数据集构建和模型训练的难度。
常用场景
经典使用场景
FarExStance数据集的经典使用场景主要集中在波斯语的可解释立场检测任务上。该数据集通过提供新闻文章、社交媒体帖子等文本的立场标签以及相应的证据句子,支持多种自然语言处理任务,如立场检测、证据检索、事实核查和文本摘要。研究人员可以利用该数据集训练和评估模型,以识别文本对特定声明的立场,并生成相应的解释。
实际应用
FarExStance数据集在实际应用中具有广泛的应用场景,特别是在新闻媒体和社交媒体的内容审核、事实核查和舆论分析等领域。通过自动检测文本对特定声明的立场,该数据集可以帮助新闻机构识别虚假信息,辅助社交媒体平台进行内容管理,并支持政府和非政府组织进行舆论监控和政策制定。
衍生相关工作
FarExStance数据集的发布激发了大量相关研究工作,特别是在波斯语立场检测和多语言模型应用方面。例如,研究人员基于该数据集开发了多种立场检测模型,并探索了参数高效微调(PEFT)和检索增强生成(RAG)等技术。此外,该数据集还为波斯语事实核查和可解释性研究提供了新的研究方向,推动了波斯语自然语言处理领域的整体发展。
以上内容由遇见数据集搜集并总结生成



