ashaar-v1-base-form-with-descriptions

Hugging Face2026-02-15 更新2026-02-16 收录

下载链接：

https://huggingface.co/datasets/Shaer-AI/ashaar-v1-base-form-with-descriptions

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是一个诗歌相关的数据集，包含143,025个训练样本。每个样本具有以下特征：'id'（唯一标识符，int64类型）、'poem verses'（诗歌诗句列表，字符串类型）、'base_meter'（基础韵律，字符串类型）、'form'（诗歌形式，字符串类型）、'poem theme'（诗歌主题，字符串类型）、'poem meter'（诗歌韵律，字符串类型）、'poem url'（诗歌链接，字符串类型）和'description'（描述，字符串类型）。数据集总大小为324,834,790字节，下载大小为161,671,718字节。该数据集适用于诗歌分析、韵律研究、自然语言处理等任务。

创建时间：

2026-02-14

原始信息汇总

数据集概述

基本信息

数据集名称: ashaar-v1-base-form-with-descriptions
存储库地址: https://huggingface.co/datasets/Shaer-AI/ashaar-v1-base-form-with-descriptions
下载大小: 161,671,718 字节
数据集大小: 324,834,790 字节

数据内容与结构

数据示例数量: 143,025 条
数据拆分: 仅包含一个“train”拆分

数据特征（字段说明）

id: 整型唯一标识符。
poem verses: 字符串列表，存储诗歌诗句。
base_meter: 字符串，表示诗歌的基础韵律。
form: 字符串，表示诗歌的形式。
poem theme: 字符串，表示诗歌的主题。
poem meter: 字符串，表示诗歌的韵律。
poem url: 字符串，指向诗歌来源的URL。
description: 字符串，提供诗歌的描述信息。

配置文件

配置名称: default
数据文件路径: data/train-*

搜集汇总

数据集介绍

构建方式

在阿拉伯古典诗歌研究领域，ashaar-v1-base-form-with-descriptions数据集通过系统化采集与结构化标注构建而成。其核心数据源自公开可访问的阿拉伯语诗歌数字典藏，每首诗歌均经过人工或半自动流程提取关键元数据，包括诗节、基础韵律、诗歌形式、主题分类以及详细描述。构建过程中特别注重韵律与形式的标准化标注，确保每一诗行均关联其对应的韵律模式，并辅以主题与描述性文本，从而形成一套兼具原始文本与丰富注释的综合性语料库。

特点

该数据集以其对阿拉伯诗歌韵律与形式的深度标注而著称，不仅收录了超过十四万首诗歌的原始诗节，还系统提供了每首诗的基础韵律、具体形式及主题分类。其独特之处在于整合了诗歌的描述性文本，为每首作品添加了语境化说明，增强了数据的可解释性。数据集结构清晰，字段涵盖从标识符、文本内容到元数据的完整链条，支持对阿拉伯诗歌格律、主题演变及风格特征的细粒度分析，为计算诗学与数字人文研究提供了高质量资源。

使用方法

研究人员可利用该数据集进行阿拉伯诗歌的韵律分析、形式分类及主题建模等任务。通过加载数据集，用户可直接访问诗节文本及其对应的韵律、形式与主题标签，结合描述字段进行上下文理解。典型应用包括训练自动韵律识别模型、探索诗歌形式与主题的关联，或作为生成式任务的参考语料。数据集以标准拆分格式提供，支持直接集成至机器学习流程，便于开展跨语言的诗歌比较研究或文化计算项目。

背景与挑战

背景概述

阿拉伯古典诗歌作为世界文学遗产的重要组成部分，其韵律与形式的复杂性长期吸引着计算语言学与数字人文领域的关注。Ashaar-v1-base-form-with-descriptions数据集由相关研究团队于近年构建，旨在系统性地整理阿拉伯诗歌的韵律结构、主题分类与形式描述。该数据集的核心研究问题聚焦于如何通过结构化数据表征阿拉伯诗歌的格律（如base_meter与poem meter）、形式（form）及主题（poem theme），从而为诗歌的自动分析、风格建模及文化遗产的数字化保存提供基础资源。其出现显著推动了阿拉伯语自然语言处理在诗歌计算领域的发展，为韵律识别、主题分类及生成模型等任务提供了关键数据支撑。

当前挑战

在阿拉伯诗歌计算领域，核心挑战在于准确捕捉其复杂的韵律体系与丰富的语义内涵。阿拉伯诗歌遵循严格的格律规则，同一形式可能对应多种变体，自动识别与标注需要克服韵律结构的歧义性与历史演变带来的差异。数据集构建过程中，挑战主要源于原始诗歌文本的数字化质量不均、韵律标注依赖专家知识导致成本高昂，以及诗歌主题与描述的标准化困难。此外，确保数据集的代表性以涵盖不同时期、地域与风格的诗歌作品，同时维护标注的一致性与准确性，亦是构建过程中需解决的关键问题。

常用场景

经典使用场景

在阿拉伯古典诗歌研究领域，ashaar-v1-base-form-with-descriptions数据集为学者提供了丰富的文本资源，其经典使用场景集中于诗歌韵律与形式的自动识别与分析。通过整合诗节、基础韵律、诗歌形式及主题描述等多维度信息，该数据集支持机器学习模型深入探索阿拉伯诗歌的格律结构，例如训练模型从原始诗节中准确分类诗歌的韵律模式，从而揭示古典诗歌在音韵层面的规律性特征。这一应用不仅提升了诗歌文本的数字化处理效率，也为跨语言韵律比较研究奠定了数据基础。

解决学术问题

该数据集有效解决了阿拉伯文学研究中长期存在的诗歌韵律自动化标注难题。传统上，阿拉伯诗歌的韵律分析依赖专家手动识别，耗时且易受主观影响。ashaar-v1数据集通过提供大规模标注样本，使研究者能够构建计算模型，系统性地解析诗歌的韵律变体与形式演变，从而推动计算诗学的发展。其意义在于将古典文学研究与现代自然语言处理技术相结合，不仅促进了阿拉伯文化遗产的数字化保存，还为跨文化诗歌比较提供了可量化的分析框架，深化了对诗歌艺术形式与语言结构关系的理解。

衍生相关工作

围绕ashaar-v1数据集，已衍生出多项经典研究工作，主要集中在计算诗学与阿拉伯自然语言处理领域。例如，研究者利用该数据集开发了基于深度学习的诗歌韵律分类器，能够高效识别多种阿拉伯诗歌形式，并发表在计算语言学会议上。另一项工作则结合该数据集与跨语言模型，探索了阿拉伯诗歌与波斯诗歌在韵律上的共性，促进了比较文学研究。这些衍生工作不仅扩展了数据集的学术价值，还推动了开源工具的开发，如诗歌分析API，使更多研究者能够便捷地访问和应用这一资源，进一步丰富了阿拉伯文学的计算研究生态。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集