arabic-generated-social-media-posts

Hugging Face2025-05-30 更新2025-05-31 收录

下载链接：

https://huggingface.co/datasets/KFUPM-JRCAI/arabic-generated-social-media-posts

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个包含机器生成阿拉伯语社交媒体帖子的数据集，用于研究检测系统、风格分析以及休闲阿拉伯语写作的跨模型泛化研究。数据集通过文本抛光方法生成，包含了来自不同大型语言模型的帖子版本。数据来源于两个阿拉伯语评论集合，经过预处理，适用于有意义的语言分析。该数据集旨在提高机器生成内容的检测能力并增强社交媒体完整性工具。

创建时间：

2025-05-22

原始信息汇总

Arabic Machine-Generated Social Media Posts Dataset 概述

📋 数据集基本信息

名称: Arabic Machine-Generated Social Media Posts Dataset
用途: 研究阿拉伯语机器生成文本的检测系统、风格分析及跨模型泛化研究
语言: 阿拉伯语（现代标准阿拉伯语及方言/非正式表达）
领域: 社交媒体帖子（书籍和酒店评论）
来源数据集: BRAD（书籍评论） + HARD（酒店评论）
生成方法: 文本润色（Polishing）

📊 数据集结构

特征字段:
- original_post: 原始人类撰写的阿拉伯语社交媒体帖子
- allam_generated_post: ALLaM模型生成的润色版本
- jais_generated_post: Jais模型生成的润色版本
- llama_generated_post: Llama模型生成的润色版本
- openai_generated_post: OpenAI GPT-4模型生成的润色版本
数据量:
- 总样本数: 3,318
- 训练集大小: 83,343,414字节
- 下载大小: 43,390,751字节

🤖 使用的模型

模型	规模	领域焦点	来源
ALLaM	7B	阿拉伯语聚焦	开源
Jais	70B	阿拉伯语聚焦	开源
Llama 3.1	70B	通用	开源
OpenAI GPT-4	-	通用	闭源

📈 数据集统计

内容统计

BRAD样本: 3,000（来自Goodreads.com的书籍评论）
HARD样本: 500（来自Booking.com的酒店评论）
人类帖子平均长度: 867.4词
BRAD长度范围: 724-1,500词
HARD长度范围: 150-614词

生成文本长度统计

模型	平均生成长度	占人类长度百分比	最大长度
人类	867.4词	100%	1,546词
ALLaM	627.4词	72%	2,705词
OpenAI	449.5词	52%	1,761词
Jais	305.3词	35%	409词
Llama	225.3词	26%	443词

🔍 研究亮点

社交媒体上下文洞察:
- 所有模型生成长度显著减少（26-72%的人类长度）
- ALLaM在非正式语境中最接近人类写作模式
- 高语义保留（BERTScores 81.7-95.1%）
检测性能:
- 检测具有挑战性
- 跨模型泛化性能下降
- 模型特异性检测差异: Llama (95.4% F1) > Jais (87.0%) > OpenAI (81.5%) > ALLaM (66.5%)

🚀 使用示例

python from datasets import load_dataset

加载完整数据集

dataset = load_dataset("KFUPM-JRCAI/arabic-generated-social-media-posts")

获取示例

sample = dataset[0] print("Original:", sample["original_post"]) print("ALLaM:", sample["allam_generated_post"]) print("Jais:", sample["jais_generated_post"])

📚 引用

引用格式: 即将发布
支持机构: SDAIA-KFUPM联合人工智能研究中心

⚖️ 伦理考虑

目的:
- 改进非正式语境中机器生成内容的检测
- 增强社交媒体完整性工具
- 推动阿拉伯语NLP在非正式写作中的研究
- 理解LLM在非正式阿拉伯语语境中的行为

🔗 相关数据集

学术摘要: KFUPM-JRCAI/arabic-generated-abstracts
源数据集: BRAD（书籍评论）, HARD（酒店评论）

搜集汇总

数据集介绍

构建方式

该数据集通过文本润色方法构建，选取了BRAD（阿拉伯语书籍评论数据集）和HARD（阿拉伯语酒店评论数据集）中的3318条原始社交媒体帖子作为基础。预处理阶段包括特殊字符清理、阿拉伯文本规范化及重复标点符号标准化。随后采用四种大型语言模型（ALLaM、Jais、Llama 3.1和OpenAI GPT-4）对这些帖子进行风格保持的文本润色，最终生成对应模型的改写版本。数据筛选设置了50词的最小长度阈值，并剔除了无效或重复样本。

特点

作为首个专注于阿拉伯语社交媒体场景的机器生成文本资源，该数据集独特地保留了方言表达和变音符号等非正式语言特征。其核心价值在于提供了原始人类撰写内容与四大主流模型生成文本的平行语料，涵盖书籍和酒店两大评论领域。数据统计显示不同模型生成文本存在显著长度差异，其中ALLaM生成内容最接近人类文本特征（平均保留原文72%长度），为研究者提供了丰富的跨模型比较维度。

使用方法

研究者可通过HuggingFace库直接加载该数据集，调用load_dataset函数即可获取包含原始帖子和各模型生成版本的结构化数据。典型应用场景包括：开发阿拉伯语非正式文本检测系统、进行跨模型风格特征分析、评估生成文本的语义保持度等。数据集中每条样本均包含original_post及四个{model}_generated_post字段，支持通过索引方式快速访问对比。使用前建议参考关联论文了解各模型的生成特性差异。

背景与挑战

背景概述

阿拉伯语生成社交媒体帖子数据集（arabic-generated-social-media-posts）由沙特阿卜杜勒阿齐兹国王科技城-法赫德国王石油矿产大学联合人工智能研究中心（SDAIA-KFUPM）于2024年开发，作为研究论文《阿拉伯AI指纹：大语言模型文本的风格计量分析与检测》的配套数据资源。该数据集聚焦阿拉伯语自然语言处理中的关键问题——社交媒体环境下机器生成文本的检测与风格分析，填补了非正式阿拉伯语文本生成研究的数据空白。通过整合来自Goodreads的书籍评论（BRAD）和Booking.com的酒店评论（HARD）两大语料源，研究人员采用文本润色方法，利用ALLaM、Jais、Llama和GPT-4等不同架构的大语言模型生成对比语料，为阿拉伯语数字媒体内容真实性识别、跨模型泛化研究提供了重要基准。

当前挑战

该数据集面临双重核心挑战：在领域问题层面，非正式阿拉伯语存在方言变体混杂、语法松散等特性，导致生成文本的风格计量特征难以捕捉，研究显示不同模型的检测准确率差异显著（66.5%-95.4%）；在构建过程中，需平衡原始文本的方言特征保留与生成质量，各模型生成文本平均长度仅为人类文本的26%-72%，且需通过严格的预处理流程解决阿拉伯语特有的字符标准化（如tatweel符号去除）、重复标点规整等技术难题。此外，跨模型生成的语义一致性控制（BERTScores 81.7-95.1%）与长文本风格连贯性维护，均为数据集构建中的关键突破点。

常用场景

经典使用场景

在阿拉伯语自然语言处理领域，该数据集为研究社交媒体环境下机器生成文本的检测与风格分析提供了重要资源。通过对比原始人类撰写的阿拉伯语社交媒体帖子与多个大型语言模型生成的润色版本，研究者能够深入探究不同模型在保留方言表达、非正式语言风格方面的表现差异。数据集特别适用于开展跨模型泛化研究，为构建鲁棒的阿拉伯语生成文本检测系统奠定数据基础。

衍生相关工作

该数据集已催生多项重要研究成果，包括阿拉伯语生成文本的跨模型检测框架构建、基于风格特征的生成文本溯源方法等。相关经典工作深入分析了ALLaM等阿拉伯语专用模型在保留本土语言特征方面的优势，为优化面向阿拉伯语的模型训练策略提供了实证依据。部分衍生研究进一步扩展了数据集的应用场景，将其与学术摘要生成数据集结合，建立了完整的阿拉伯语生成文本评估体系。

数据集最近研究