Fann or Flop

Name: Fann or Flop
Creator: Lawa.AI, Mohamed bin Zayed University of AI, Australian National University, Aalto University
Published: 2025-05-24 01:59:29
License: 暂无描述

arXiv2025-05-24 更新2025-05-27 收录

下载链接：

https://mbzuai-oryx.github.io/FannOrFlop/

下载链接

链接失效反馈

官方服务：

资源简介：

Fann or Flop数据集是首个用于评估语言模型对阿拉伯诗歌理解能力的基准数据集。它涵盖了从古典结构到当代自由诗的各种形式，包括12个历史时期和21个核心诗歌体裁。数据集由经过专家验证的诗歌和解释组成，用于评估语义理解、隐喻解释、韵律意识和文化背景。数据集旨在解决语言模型在理解阿拉伯诗歌方面的挑战，并作为评估模型在阿拉伯诗歌理解方面深度和文化敏感性的指标。数据集的发布为阿拉伯语言模型的发展和评估提供了开源资源。

The Fann or Flop dataset is the first benchmark dataset designed to evaluate language models' comprehension of Arabic poetry. It encompasses a wide range of poetic forms spanning from classical structures to contemporary free verse, covering 12 historical periods and 21 core poetic genres. The dataset comprises expert-validated poems and their accompanying explanatory content, which is used to assess semantic comprehension, metaphor interpretation, prosodic awareness, and cultural contextual understanding. This dataset aims to address the existing challenges in language models' understanding of Arabic poetry, and acts as a reliable indicator for evaluating the depth and cultural sensitivity of models' performance in comprehending Arabic poetry. The public release of this dataset offers an open-source resource for the development and evaluation of Arabic language models.

提供机构：

Lawa.AI, Mohamed bin Zayed University of AI, Australian National University, Aalto University

创建时间：

2025-05-24

原始信息汇总

Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding

数据集概述

名称: Fann or Flop
类型: 阿拉伯诗歌理解基准测试
语言: 阿拉伯语
领域: 自然语言处理、诗歌理解
发布年份: 2025

数据集特点

覆盖范围:
- 12个历史时期
- 21种核心诗歌体裁
- 多种格律形式（从古典结构到当代自由诗）
评估维度:
- 语义理解
- 隐喻解释
- 韵律意识
- 文化背景理解

数据收集与处理

来源: 从可信的在线档案中爬取阿拉伯诗歌
处理流程:
- 专家验证的分类匹配
- 去重和无效条目过滤
- 文本规范化（统一变音符号、标点符号和字母形式）
- 阿拉伯语特定分词
- 手动校正OCR和编码错误
- 语言专家验证样本

数据分布

历史时期分布:
- 阿拔斯王朝、现代和安达卢西亚时期占比最高
体裁分布:
- 赞美诗、讽刺诗和爱情诗占主导
- 道歉和悲伤等体裁出现频率较低

评估指标

自动指标:
- BLEU
- chrF(++)
- BERTScore
- 文本蕴含
人工评估指标:
- 忠实性/一致性
- 流畅性/语法性
- 解释深度

模型表现

最佳封闭模型: GPT-4o-2024-08-06
最佳开放模型: Qwen-3

相关资源

论文: arXiv:2505.18152
代码与数据集: HuggingFace

搜集汇总

数据集介绍

构建方式

Fann or Flop数据集通过多阶段流程构建，首先从可信的在线阿拉伯诗歌档案中抓取诗歌，随后匹配到专家验证的分类体系，并经过过滤去除重复和模糊元数据条目。过滤后的文本经过标准化处理（如统一变音符号、标点和字母形式）和阿拉伯语特定分词，同时排除非诗歌或无关内容。最后，语言专家对每个样本进行验证，确保其与流派和时代标签准确对应。

特点

Fann or Flop数据集涵盖12个历史时期，从伊斯兰前时期到现代，包含21种诗歌流派和31个主题类别。该数据集独特地整合了方言多样性、诗歌修辞标注、诗句级细粒度、时间背景和问答式评估格式等多重维度，是首个全面评估阿拉伯诗歌理解的基准。

使用方法

该数据集可用于评估大型语言模型对阿拉伯诗歌的理解能力，包括语义理解、隐喻解释、韵律意识和文化背景敏感性。用户可通过Hugging Face平台访问数据集，或使用GitHub上的评估套件进行模型测试。数据集支持诗歌流派分类、历时文学分析和诗人特定建模等应用。

背景与挑战

背景概述

Fann or Flop是由Lawa.AI和Mohamed bin Zayed University of AI等机构的研究团队于2025年推出的首个阿拉伯诗歌理解基准数据集。该数据集涵盖从伊斯兰前时期到现代的12个历史时期，包含21种诗歌体裁和31个主题类别，共6,984首诗歌及其解释。数据集旨在评估大语言模型对阿拉伯诗歌的语义理解、隐喻解释、韵律感知和文化背景把握能力，填补了阿拉伯自然语言处理领域在古典诗歌理解评估方面的空白。作为阿拉伯文化遗产的重要组成部分，该数据集为研究古典阿拉伯语的语言模型提供了重要的评估工具，推动了阿拉伯语自然语言处理在文学和文化理解方面的发展。

当前挑战

Fann or Flop数据集面临的主要挑战包括：1) 领域问题挑战：阿拉伯诗歌具有复杂的隐喻系统、多样的韵律形式和深厚的文化内涵，现有模型难以准确理解其深层含义；2) 构建过程挑战：需要处理不同历史时期的语言变体，统一阿拉伯语变音符号和拼写变体，确保诗歌时代和体裁标注的准确性，以及处理低质量OCR文本的校正问题。此外，数据集还需平衡不同时期和体裁的样本分布，确保评估的全面性和代表性。

常用场景

经典使用场景

Fann or Flop数据集作为首个专注于阿拉伯诗歌理解的基准测试，广泛应用于评估大型语言模型（LLMs）在跨12个历史时期、21种诗歌体裁及多种格律形式下的文化语境理解和隐喻解读能力。其经典使用场景包括：1）模型在古典阿拉伯语深度推理任务上的性能诊断，如对阿拔斯王朝诗歌中哲学隐喻的解析；2）作为跨时代文学风格分析的语料库，例如对比安达卢西亚与现代自由体诗的修辞差异；3）支撑多模态研究，当诗歌文本与历史注释、地域信息相结合时，可探究语言模型的文化地理感知能力。

解决学术问题

该数据集系统性地解决了阿拉伯NLP领域三大核心问题：其一，填补了现有基准（如Arabic-SQuAD）在古典诗歌评估上的空白，通过6,984首带专业注释的诗作提供韵律标注、时代标签和主题分类；其二，突破了表层语义理解的局限，设计包含隐喻识别（如将'沙漠风暴'解读为命运无常）、文化指涉解析（如伊斯兰黄金时期的宫廷隐喻）等深层任务；其三，建立了历时语言学研究的量化框架，通过精确标注从贾希利叶时期到现代的词汇演变，支持语言模型对阿拉伯语语义漂移的追踪研究。

衍生相关工作

该数据集已催生多项重要研究：1）MBZUAI团队开发的EraBERT模型，利用时代标签实现诗歌断代准确率提升18%；2）《阿拉伯诗歌的计量风格学》研究通过其标注的31种主题类别，揭示了乌玛亚王朝讽刺诗的独特词频分布；3）衍生基准Arabic-PoetryQA扩展了3,000个人工构建的推理问题，专门评估模型对诗歌中历史事件的关联理解。此外，Meta的Nourel语料库将其与阿拉伯方言数据结合，探索诗歌形式对现代口语的影响。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集