Fann or Flop

github2025-05-23 更新2025-05-24 收录

下载链接：

https://github.com/mbzuai-oryx/FannOrFlop

下载链接

链接失效反馈

官方服务：

资源简介：

Fann or Flop是第一个全面评估大型语言模型（LLMs）对阿拉伯诗歌理解能力的基准数据集。它包含近7000首诗-解释对，涵盖12个诗歌时代、21种体裁和多种韵律，为阿拉伯自然语言处理提供了一个文化丰富且语言挑战性强的测试平台。

Fann or Flop is the first benchmark dataset for comprehensively evaluating the Arabic poetry comprehension capabilities of large language models (LLMs). It contains nearly 7,000 poem-explanation pairs, covering 12 poetic eras, 21 poetic genres, and a variety of prosodic meters, providing a culturally rich and linguistically challenging testbed for Arabic natural language processing.

创建时间：

2025-05-22

原始信息汇总

Fann or Flop: A Multigenre, Multiera Benchmark for Arabic Poetry Understanding

概述

Fann or Flop是首个全面评估大语言模型(LLMs)阿拉伯诗歌理解能力的基准测试，包含近7,000首诗歌-解释对，涵盖12个诗歌时代、21种体裁和多种韵律，为阿拉伯NLP提供了文化丰富且具有语言挑战性的测试平台。

关键特性

专家注释解释：由阿拉伯语学者验证的逐节注释
12个历史时期：从伊斯兰前时期、倭马亚时期到现代诗歌
多维度评估：忠实度、流畅性、隐喻、历史背景和修辞意识
结构化分类：每首诗标注有韵律、体裁和时代
问答式格式：适合生成式和基于理解的LLM评估

数据集结构

JSON格式条目包含以下字段：

字段	类型	描述
`id`	字符串	唯一诗歌标识符
`title`	字符串	诗歌标题
`author`	字符串	诗人姓名
`source`	字符串	诗歌来源URL
`tags`	字符串列表	`韵律`、`体裁`和`时代`列表
`meter`	字符串	诗歌韵律
`genre`	字符串	体裁标签
`era`	字符串	历史文学时期
`verse_count`	整数	节数
`poem_verses`	字符串	完整诗歌文本
`explanation`	字典列表	逐节解释
`raw_explanation`	字符串	完整段落格式解释

分类概述

涵盖12个主要阿拉伯诗歌时期：

时期	大致时间范围	代表诗人
伊斯兰前时期	~6世纪	Imru al-Qays, Antarah ibn Shaddad
倭马亚时期	661-750 CE	Jarir, Al-Farazdaq
阿拔斯时期	750-1258 CE	Al-Mutanabbi, Abu Nuwas
安达卢西亚时期	756-1492 CE	Ibn Zaydun, Ibn Khafaja
现代时期	19世纪至今	Hafiz Ibrahim, Ahmad Shawqi

评估协议

提供以下评估框架：

自动指标

BLEU/chrF++：词汇重叠
BERTScore：语义相似度
文本蕴涵：使用mDeBERTa(NLI)

LLM作为评判者

GPT-4o评估：
- 忠实度/一致性
- 流畅度/语法性

人工评估

解释深度
- 评分标准包括：
  - 字面意义(0-1)
  - 主题/情感深度(0-2)
  - 文化背景(0-2)
  - 文学手法(0-3)
  - 表达力/连贯性(0-2)

下载

bash from datasets import load_dataset ds = load_dataset("omkarthawakar/FannOrFlop")

评估套件

evaluation/目录包含重现基准结果和评估自定义模型的脚本。

主要评估脚本

BERTScore：使用AraBERT计算语义相似度
BLEU：计算词汇重叠
chrF Score：计算字符n-gram指标
LLM-as-Judge评估：使用LLM评估忠实度和流畅度
文本蕴涵：计算真实解释与生成解释间的双向蕴涵分数

排行榜(示例结果)

专有模型

模型	BLEU	chrF(++)	BERTScore	文本蕴涵	忠实度/一致性	流畅度/语法性	解释深度
GPT-4o-2024-08-06	0.0395	0.2882	0.6410	0.6775	3.92 (±0.99)	4.96 (±0.20)	7.52

开源模型

模型	BLEU	chrF(++)	BERTScore	文本蕴涵	忠实度/一致性	流畅度/语法性	解释深度
Deepseek-V3	0.0395	0.2771	0.6335	0.5117	3.36 (±0.91)	4.98 (±0.16)	4.75

搜集汇总

数据集介绍

构建方式

Fann or Flop数据集通过多阶段流程构建，首先从可信的在线阿拉伯诗歌档案中爬取原始文本，随后经过专家验证的分类体系进行初步匹配。数据经过去重、元数据清洗和无效条目过滤后，进行阿拉伯语特有的标准化处理（如统一变音符号和字母形态）和分词。最后阶段由语言学专家逐条验证样本，确保其与诗歌流派和时代标签的精确对应，形成包含近7000首诗歌-解释对的语料库。

使用方法

用户可通过Hugging Face的datasets库直接加载数据集，调用格式为`load_dataset('omkarthawakar/FannOrFlop')`。评估套件包含BERTScore、BLEU、chrF++等自动指标脚本，以及基于GPT-4的LLM-as-Judge人工评估模拟系统。研究者需将模型输出按指定JSON格式组织，包含诗歌ID和逐节解释，通过运行`evaluation/`目录下的对应脚本即可生成包括语义相似度、文本蕴含和解释深度在内的多维评估报告。

背景与挑战

背景概述

Fann or Flop是由MBZUAI-ORYX研究团队于2025年推出的首个专注于阿拉伯诗歌理解的多时代、多体裁基准数据集。该数据集由Wafa Alghallabi、Ritesh Thawkar等学者联合构建，包含近7000首诗歌及其专业注释，涵盖12个历史时期和21种诗歌体裁。作为阿拉伯自然语言处理领域的重要突破，该数据集填补了诗歌语义理解评估体系的空白，为研究阿拉伯文学遗产的数字化提供了标准化工具。其独特的诗节级解释和多元评价维度，为探索大型语言模型在复杂文化语境下的表现建立了新的研究范式。

当前挑战

该数据集主要解决阿拉伯诗歌自动理解这一核心挑战，包括诗歌韵律分析、隐喻识别、历史语境还原等复杂语义任务。构建过程中面临多重困难：阿拉伯诗歌特有的韵律模式（如الطويل、الكامل等16种传统格律）需要专业语言学知识进行标注；不同历史时期的词汇语义变迁增加了注释一致性难度；诗歌中大量存在的修辞手法和典故要求注释者具备深厚的文学素养。此外，数据采集过程中还需处理古阿拉伯语字符编码、诗歌断代考证等特殊问题，这些因素共同构成了该数据集构建的技术壁垒。

常用场景

经典使用场景

在阿拉伯诗歌研究领域，Fann or Flop数据集为学者和研究人员提供了一个多维度、跨时代的诗歌理解基准。该数据集涵盖了从公元6世纪前伊斯兰时期到现代的12个历史时期，21种诗歌类型，以及多种韵律形式，使得研究者能够全面评估语言模型对阿拉伯诗歌的理解能力。数据集中的每首诗歌都配有专家验证的注释和解释，为诗歌分析提供了丰富的上下文信息。

解决学术问题

Fann or Flop数据集解决了阿拉伯自然语言处理领域中的多个关键问题。首先，它填补了阿拉伯诗歌理解基准数据集的空白，为研究者提供了一个标准化的评估工具。其次，数据集的多维度标注（如韵律、类型、时代）使得研究者能够深入探究语言模型在不同诗歌特征上的表现差异。此外，数据集中的专家注释为诗歌的语义理解、隐喻分析和文化背景解读提供了可靠依据，推动了计算语言学与文学研究的交叉融合。

实际应用

在实际应用中，Fann or Flop数据集为阿拉伯语教育、文化遗产数字化和文学研究提供了重要支持。教育机构可以利用该数据集开发智能诗歌分析工具，辅助学生学习阿拉伯诗歌的韵律和修辞手法。文化保护组织可以基于数据集构建数字诗歌档案，保存和传播阿拉伯文学遗产。此外，该数据集还可用于开发多语言诗歌生成系统，促进阿拉伯文学在全球范围内的传播。

数据集最近研究