MultilingualPoetryDatabase

Hugging Face2026-01-17 更新2026-01-18 收录

下载链接：

https://huggingface.co/datasets/PoetryMTEB/MultilingualPoetryDatabase

下载链接

链接失效反馈

官方服务：

资源简介：

一个全面的多语言诗歌数据库，包含诗歌的元数据和基于DeepSeek-V3.1的LLM分析结果。数据集分为两部分：'corpus'包含诗歌的基本信息（如作者、标题、内容、语言等），'analysis'包含诗歌的创作意图、题材、主题、思想和情感等分析结果。数据集支持85种语言，数据来源包括Lyrikline和PoemHunter。

创建时间：

2026-01-15

原始信息汇总

Multilingual Poetry Database 数据集概述

数据集基本信息

数据集名称：Multilingual Poetry Database
数据集地址：https://huggingface.co/datasets/PoetryMTEB/MultilingualPoetryDatabase
许可证：cc-by-nc-4.0
任务类别：文本分类、问答、文本生成
标签：艺术、诗歌、多语言、文学

数据集结构与内容

数据集包含两个主要配置（config）：

1. 语料库配置 (`corpus`)

描述：包含诗歌的基本元数据和文本内容。
数据量：823,972 个样本
数据集大小：655,998,909 字节
特征字段：
- poem_id：诗歌唯一标识符
- author：作者姓名
- title：诗歌标题
- content：诗歌内容
- link：来源链接（如可用）
- language：语言代码（ISO 639-3）

2. 分析配置 (`analysis`)

描述：包含基于大型语言模型（LLM）的诗歌分析结果。
数据量：312,617 个样本
数据集大小：133,537,129 字节
特征字段：
- poem_id：诗歌标识符（与语料库关联）
- intent：创作意图分析
- subject：题材分析
- theme：主题分析
- thought：哲学思想分析
- emotion：情感表达分析

语言覆盖

数据集包含 85 种语言的诗歌，语言代码包括：AFR, AMH, ARA, ASM, AYM, BEL, BEN, BOS, BRE, BUL, CAT, CES, CNR, CYM, DAN, DEU, ELL, ENG, EST, EUS, FAS, FIN, FRA, GLA, GLE, GLG, GUJ, HEB, HIN, HRV, HUN, HYE, IND, ISL, ITA, JPN, KAL, KAN, KAT, KAZ, KIR, KOR, KUR, LAV, LIT, MAL, MAR, MKD, MLT, MSA, MYA, NEP, NLD, NOR, ORI, PAN, POL, POR, ROH, RON, RUS, SAI, SIN, SLK, SLV, SMA, SME, SNA, SND, SPA, SQI, SRP, SWA, SWE, TAM, TEL, TSN, TUR, UKR, URD, UZB, VIE, XHO, YID, ZHO。

数据来源

Lyrikline：https://www.lyrikline.org/
PoemHunter：https://www.poemhunter.com/

分析生成方法

分析结果由 DeepSeek-V3.1 模型生成，使用特定提示词要求模型从文学理论角度分析诗歌的创作意图、题材、主题、思想和情感，并以指定的JSON格式输出中文分析结果。

使用示例

可通过 datasets 库加载数据集，并可选择加载特定配置。语料库与分析数据集可通过 poem_id 字段进行合并。

引用

数据来源：Lyrikline (https://www.lyrikline.org/) 与 PoemHunter (https://www.poemhunter.com/)
LLM模型：DeepSeek-V3.1

搜集汇总

数据集介绍

构建方式

在诗歌研究领域，构建一个跨语言的诗学资源库需要系统性的数据整合与深度分析。MultilingualPoetryDatabase的构建过程首先从Lyrikline和PoemHunter两大权威诗歌平台采集原始数据，涵盖了85种语言的诗歌文本及其元数据，包括作者、标题、内容和语言代码。随后，通过DeepSeek-V3.1大语言模型对诗歌进行结构化分析，采用特定提示词模板从创作意图、题材、主题、思想和情感五个维度生成中文分析结果，确保分析结果符合文学理论框架。整个数据集以Parquet格式组织，分为语料库和分析两个独立配置，便于研究人员按需访问。

使用方法

在自然语言处理与数字人文研究中，该数据集的使用方法灵活多样。研究人员可通过Hugging Face的datasets库分别加载语料库或分析配置，利用poem_id字段将诗歌原文与对应的分析结果进行关联。例如，在跨语言诗歌分类任务中，可结合语言代码和分析特征训练多标签分类模型；在诗歌生成研究中，则可利用主题和情感分析结果作为条件控制生成内容。数据集支持以Pandas DataFrame形式进行合并与筛选，便于开展大规模的统计分析与可视化探索，为诗歌计算研究提供标准化数据基础。

背景与挑战

背景概述

在数字人文与计算文学研究蓬勃发展的背景下，跨语言诗歌资源的系统化整合成为深化文化理解与推进自然语言处理技术的关键。MultilingualPoetryDatabase应运而生，由PoetryMTEB团队构建，旨在汇集全球多元的诗歌传统。该数据集收录了来自Lyrikline与PoemHunter等权威来源的超过82万首诗歌，涵盖85种语言，并创新性地引入了基于DeepSeek-V3.1大语言模型的深度文学分析。其核心研究问题聚焦于如何通过大规模、多语言的诗歌语料库及其结构化分析，支撑诗歌自动分类、情感计算、主题建模以及跨文化比较研究，为文学计算与多语言人工智能模型提供了前所未有的基础资源。

当前挑战

该数据集致力于解决多语言诗歌计算分析这一复杂领域问题，其核心挑战在于诗歌文本固有的高度凝练性、隐喻性与文化特异性，这使得自动化的意图识别、主题抽取与情感分析极具难度。在构建过程中，团队面临多重挑战：首先，需从异构数据源中爬取、清洗并标准化涵盖85种语言的庞杂诗歌文本与元数据，确保格式统一与编码正确；其次，利用大语言模型进行批量分析时，需设计精准的提示词以引导模型产出符合文学理论的结构化分析，并处理不同语言诗歌在文化语境与表达范式上的巨大差异，保证分析结果的一致性与可靠性。

常用场景

经典使用场景

在跨语言文学计算领域，MultilingualPoetryDatabase以其涵盖85种语言的庞大诗歌语料库，为多语言自然语言处理任务提供了宝贵的资源。该数据集最经典的使用场景在于支持多语言文本分类、情感分析和主题建模研究，研究者能够利用其丰富的诗歌文本与深度分析标注，训练和评估跨语言模型在文学文本上的泛化能力与表现。

解决学术问题

该数据集有效解决了文学计算与数字人文研究中长期存在的多语言数据稀缺问题。通过提供大规模、结构化的多语言诗歌文本及其由大语言模型生成的深度分析（包括创作意图、主题、情感等），它为跨文化诗歌比较、文学风格迁移、以及多语言文学特征提取等学术课题提供了实证基础，推动了计算文学研究向更广泛的语言与文化背景拓展。

实际应用

在实际应用层面，MultilingualPoetryDatabase为开发多语言文学教育工具、跨文化创意写作辅助系统以及多语言内容推荐引擎提供了数据支撑。例如，教育科技公司可基于此数据集构建诗歌赏析与语言学习平台，而文化机构则能利用其进行多语言文化遗产的数字化保存与展示，促进全球文学资源的可及性与互动性。

数据集最近研究