asas-ai/ANS_Corpus

Name: asas-ai/ANS_Corpus
Creator: asas-ai
Published: 2024-05-08 17:29:18
License: 暂无描述

Hugging Face2024-05-08 更新2024-06-12 收录

下载链接：

https://hf-mirror.com/datasets/asas-ai/ANS_Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集名为Arabic News Stance Corpus，包含两个主要配置：claim和stance。claim配置用于声明验证任务，包含claim_s（声明内容）和fake_flag（是否为假）两个特征。stance配置用于立场预测任务，包含s1（第一个句子）、s2（第二个句子）和stance（立场）三个特征。数据集的语言为阿拉伯语，适用于文本分类任务，规模在1K到10K之间，许可证为Apache 2.0。

提供机构：

asas-ai

原始信息汇总

数据集概述

数据集名称

名称: Arabic News Stance Corpus
简称: ANS_Corpus

数据集配置

claim配置:
- 数据文件:
  - 训练集: claim/train-*
  - 开发集: claim/dev-*
  - 测试集: claim/test-*
- 特征:
  - claim_s: 字符串类型
  - fake_flag: 整数类型
- 数据集统计:
  - 训练集: 3185个样本，321988字节
  - 开发集: 906个样本，92582字节
  - 测试集: 456个样本，46185字节
  - 下载大小: 236217字节
  - 数据集大小: 460755字节
stance配置:
- 数据文件:
  - 训练集: stance/train-*
  - 开发集: stance/dev-*
  - 测试集: stance/test-*
- 特征:
  - s1: 字符串类型
  - s2: 字符串类型
  - stance: 字符串类型
- 数据集统计:
  - 训练集: 2652个样本，518824字节
  - 开发集: 755个样本，150106字节
  - 测试集: 379个样本，74649字节
  - 下载大小: 339593字节
  - 数据集大小: 743579字节

数据集属性

任务类别: 文本分类
语言: 阿拉伯语
许可证: Apache-2.0
标签: Claim Verification
大小类别: 1K<n<10K

搜集汇总

数据集介绍

构建方式

在阿拉伯语自然语言处理领域，构建高质量的语料库对于立场检测与声明验证任务至关重要。ANS_Corpus的构建过程基于严谨的学术研究，从阿拉伯语新闻源中系统性地采集文本数据，并通过人工标注与自动化流程相结合的方式，生成了包含声明真实性标签与句子间立场关系的结构化数据集。该数据集划分为声明与立场两个独立配置，每个配置均包含训练、开发与测试三个标准分割，确保了数据在模型训练与评估中的有效利用。

特点

该数据集的核心特点在于其专注于阿拉伯语新闻文本，涵盖了声明验证与立场检测两大关键任务。声明配置包含声明文本及其真实性标签，立场配置则提供句子对及其间的立场关系标注，如支持、反对或中立。数据规模适中，总计超过七千个样本，语言纯正且领域集中，为阿拉伯语信息验证研究提供了稀缺的标注资源。其清晰的划分与标准的格式设计，也极大便利了后续的机器学习应用。

使用方法

研究人员可通过HuggingFace数据集库直接加载ANS_Corpus，并选择‘claim’或‘stance’配置以接入不同任务的数据。在声明验证任务中，模型可利用声明文本与对应的二分类标签进行训练；在立场检测任务中，则需处理句子对并预测其间的立场类别。标准的数据分割支持直接的模型训练、验证与测试流程，为开发鲁棒的阿拉伯语文本分类与验证模型提供了坚实基础。

背景与挑战

背景概述

在自然语言处理领域，立场检测与声明验证是信息可信度评估的核心任务，尤其对于资源相对稀缺的语言如阿拉伯语而言，高质量数据集的构建显得尤为重要。ANS_Corpus（Arabic News Stance Corpus）由研究人员Jude Khouja于2020年创建，并在第三届事实提取与验证研讨会（FEVER）上正式发布。该数据集旨在针对阿拉伯语新闻文本，系统性地研究立场预测与声明验证问题，通过提供标注的声明及其真伪标签，以及句子对之间的立场关系，为阿拉伯语自然语言处理社区填补了关键数据空白，推动了跨语言信息验证技术的发展。

当前挑战

该数据集致力于解决阿拉伯语新闻领域中的声明验证与立场检测挑战，其核心难点在于阿拉伯语复杂的形态结构和方言变体，这给文本的语义理解与标注带来显著困难。在构建过程中，研究人员面临数据收集与标注的双重挑战：一方面，阿拉伯语高质量新闻资源的获取与清洗需克服语言特异性障碍；另一方面，立场与声明真伪的人工标注要求标注者具备深厚的语言文化背景，以确保标注的一致性与准确性，这些因素共同制约了数据集的规模与泛化能力。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，立场检测与声明验证是信息可信度评估的核心任务。ANS_Corpus作为专门针对阿拉伯新闻文本构建的语料库，其经典使用场景在于训练和评估机器学习模型，以自动识别新闻声明中的虚假信息，并分析不同文本片段之间的立场关系。该数据集通过精心标注的声明真伪标签和立场分类，为研究者提供了标准化的实验平台，推动了阿拉伯语文本理解技术的进步。

实际应用

在实际应用中，ANS_Corpus为阿拉伯语地区的新闻媒体、社交媒体平台及事实核查机构提供了技术支撑。基于该数据集训练的模型能够自动化筛查新闻内容的真实性，识别带有误导性的声明，并分析公众讨论中的立场倾向。这类工具有助于提升信息环境的质量，辅助人工审核工作，在遏制虚假信息传播、维护网络空间清朗等方面具有显著的社会价值。

衍生相关工作

围绕ANS_Corpus，学术界衍生了一系列经典研究工作。例如，原论文提出的声明验证与立场预测框架为后续研究奠定了基础。许多学者在此基础上探索了多任务学习、跨语言迁移以及结合外部知识的增强模型，进一步提升了阿拉伯语事实核查系统的性能。这些工作不仅深化了对阿拉伯语语言特性的理解，也推动了全球虚假信息检测技术体系的完善。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集