ALHD

Name: ALHD
Creator: 伦敦玛丽女王大学电子工程与计算机科学学院
Published: 2025-10-04 04:27:45
License: 暂无描述

arXiv2025-10-04 更新2025-11-20 收录

下载链接：

https://zenodo.org/records/17249602

下载链接

链接失效反馈

官方服务：

资源简介：

ALHD（阿拉伯语大型语言模型和人类数据集）是一个大规模、多语种和多方言的语料库，旨在区分人类和大型语言模型生成的文本。该数据集跨越三个语种（新闻、社交媒体、评论），涵盖了阿拉伯语和阿拉伯方言，包含超过40万个平衡样本，由三个领先的大型语言模型生成，并来自多个人类来源。ALHD数据集为研究阿拉伯语大型语言模型生成文本检测的可迁移性提供了基础。

提供机构：

伦敦玛丽女王大学电子工程与计算机科学学院

创建时间：

2025-10-04

搜集汇总

数据集介绍

构建方式

在阿拉伯语自然语言处理领域，构建高质量数据集对推动大语言模型生成文本检测研究至关重要。ALHD数据集通过整合六个公开阿拉伯语语料库，涵盖新闻、社交媒体和评论三大文本类型，并融合现代标准阿拉伯语及方言变体。采用系统化数据清洗流程去除重复与无效样本，基于文档ID平衡采样策略，确保人类文本与LLM生成文本比例为1:3。通过调用GPT-3.5-Turbo、Gemini-2.5-Flash和Command-R三大模型接口，使用标准化阿拉伯语提示模板生成对应文本，最终形成包含40万余样本的多维度语料库。

特点

作为首个大规模阿拉伯语生成文本检测基准，ALHD展现出显著的多元特征。其文本来源覆盖SANAD新闻语料、多方言社交媒体数据及跨领域用户评论，同时包含现代标准阿拉伯语与五种地区方言的混合表达。数据集通过严格的平衡设计，在文本长度、主题分布和语言变体层面保持均衡，并标注丰富的元数据包括token统计量、生成模型类型和细粒度分类标签。特别值得注意的是，该数据集通过并行生成机制为每个原始人类文本构建三个LLM衍生版本，为研究生成文本的跨模型泛化特性提供独特视角。

使用方法

该数据集支持多层次研究范式，为阿拉伯语AI生成文本检测提供标准化评估框架。研究者可采用预设的70-15-15标准划分进行多体裁联合训练，亦可使用单源隔离和跨体裁隔离方案验证模型泛化能力。基准实验涵盖传统机器学习、BERT系列模型及大语言模型零样本/少样本提示三大技术路线，配套提供完整的数据预处理流程和10%精简子集以适配资源受限场景。通过文档ID关联机制，支持细粒度的配对样本分析，助力探究生成文本与人类文本在词汇分布、句法结构及风格特征层面的系统性差异。

背景与挑战

背景概述

随着大语言模型在阿拉伯语内容生成领域的广泛应用，检测机器生成文本的需求日益迫切。伦敦玛丽女王大学的Ali Khairallah与Arkaitz Zubiaga于2025年联合发布了ALHD数据集，这是首个面向阿拉伯语的大规模多体裁人机文本检测基准。该数据集覆盖新闻、社交媒体与评论三大领域，同时包含现代标准阿拉伯语与方言文本，样本量超过40万条，为研究跨体裁泛化能力提供了重要基础。其构建填补了阿拉伯语自然语言处理领域在生成文本检测方面的资源空白，对防范虚假信息与学术不端具有深远意义。

当前挑战

该数据集致力于解决阿拉伯语人机文本分类的核心难题，其挑战主要体现在两方面：领域问题层面，阿拉伯语复杂的形态变化与方言多样性导致生成文本与人类文本风格高度接近，尤其在新闻体裁中模型泛化能力显著下降；构建过程中需平衡多数据源的文本长度差异与方言分布，同时确保三大生成模型输出文本的语义一致性与格式规范性，最终通过严格的数据清洗与平衡采样策略保障数据质量。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，ALHD数据集为检测大语言模型生成文本提供了标准化评估基准。该数据集覆盖新闻、社交媒体和评论三大文本类型，同时包含现代标准阿拉伯语和方言阿拉伯语样本，为研究者提供了跨体裁、跨方言的检测场景。通过精细平衡的40万条样本和严格的预处理流程，该数据集支持传统分类器、基于BERT的模型及大语言模型在零样本与少样本设置下的系统性性能对比。

解决学术问题

ALHD数据集有效解决了阿拉伯语文本检测领域缺乏大规模标注资源的瓶颈问题。通过构建覆盖多体裁、多方言的平衡语料库，该数据集支持对模型跨领域泛化能力的深入研究。实验表明，基于阿拉伯语预训练的BERT模型在该数据集上达到90%以上的检测准确率，显著优于传统机器学习方法，而零样本提示的大语言模型表现欠佳，这揭示了当前阿拉伯语文本检测技术面临的泛化挑战与改进方向。

衍生相关工作

ALHD数据集的发布催生了多项阿拉伯语文本检测的创新研究。基于该数据集的基准测试推动了AraBERTv2、AraELECTRA等阿拉伯语专用模型的优化，促进了跨体裁检测方法的发展。后续研究围绕数据增强策略、对抗性样本构建和多模态检测框架展开，特别是在新闻体裁的检测难题上，研究者提出了融合风格特征与语义分析的混合模型，显著提升了在复杂场景下的检测鲁棒性。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集