wikisource-italian-poems

Hugging Face2025-08-26 更新2025-08-28 收录

下载链接：

https://huggingface.co/datasets/mattiaferrarini/wikisource-italian-poems

下载链接

链接失效反馈

官方服务：

资源简介：

Wikisource意大利诗歌数据集包含从Wikisource网站抓取的18000首意大利诗歌，涵盖了从公元前1世纪至今的680位作者的作品。这个数据集旨在使Wikisource的内容更易于数据科学领域的应用。数据集适用于文本分类、特征提取、文本生成、句子相似度比较和填空等NLP任务。

创建时间：

2025-08-22

原始信息汇总

Wikisource Italian Poems 数据集概述

数据集基本信息

许可证：CC BY-SA 4.0
任务类别：文本分类、特征提取、文本生成、句子相似性、掩码填充
语言：意大利语（it）
标签：诗歌、文学、人文、诗篇
数据集名称：Wikisource Italian Poems
规模类别：10K < n < 100K

数据内容

来源：从Wikisource（https://it.wikisource.org/wiki/Categoria:Poesie）抓取的意大利诗歌
数量：17,969首诗
作者数量：680位
时间跨度：从公元前一世纪开始，涵盖不同时期
结构单元：
- 87,603个诗节
- 794,577行诗句
- 4,924,713个单词

数据组织格式

数据集采用JSON数组格式，每个对象代表一首诗，包含以下字段：

title：诗歌标题（字符串）
author：作者姓名（字符串，可能为null）
year：创作或出版年份/世纪（字符串，可能为null）
url：诗歌在Wikisource的页面链接（字符串）
text：诗歌文本（数组的数组，内层数组代表诗节，字符串代表诗句）

用途说明

该数据集旨在使Wikisource内容更易于在数据科学中使用，适用于研究和学习目的。

数据质量说明

尽管已尽力确保诗歌抓取的正确性，但可能存在以下问题：

text字段可能包含不属于诗歌文本的字符串
按诗节组织的text数组结构可能并不总是可靠

搜集汇总

数据集介绍

构建方式

在数字人文领域，意大利诗歌作为文化遗产的重要组成部分，其系统化整理对文学研究具有重要意义。Wikisource Italian Poems数据集通过自动化爬虫技术从Wikisource平台系统抓取原始文本，涵盖从公元前一世纪至近代的诗歌作品。数据采集过程严格遵循来源网站的版权协议，最终形成包含17,969首诗歌的结构化JSON阵列，每首诗歌均标注标题、作者、创作年代及原文分层信息。

使用方法

研究者可借助该数据集开展多项 computational humanities 研究，包括但不限于诗歌风格计量分析、时代特征演变追踪以及诗人影响力研究。技术实现上，通过解析JSON对象的层级结构，可提取诗节数组进行特征工程，或利用text字段进行生成式语言模型训练。建议使用前进行数据清洗，注意处理文本中可能存在的非诗歌内容插入问题，以确保分析结果的准确性。

背景与挑战

背景概述

数字人文领域的兴起促使文化遗产的数字化保存与计算分析成为可能，Wikisource Italian Poems数据集由研究团队于现代构建，旨在系统整理意大利诗歌遗产。该数据集收录了自公元前一世纪至近代的17,969首诗歌，涵盖680位作者，核心研究问题聚焦于通过计算语言学方法分析意大利诗歌的演变规律、风格特征及文化影响。其多时代跨度的文本为文学研究、风格计量及生成模型训练提供了珍贵资源，显著推动了 computational literary studies 领域的发展。

当前挑战

该数据集致力于解决意大利诗歌的自动分类、风格生成及历时性分析等自然语言处理任务，其挑战在于诗歌语言的高度隐喻性、格律复杂性及历史语言变体。构建过程中，从Wikisource抓取文本时面临结构异质性挑战：部分诗歌的年份与作者信息缺失，文本分层（诗节与诗句）的自动解析易受版面格式干扰，且原始数据可能包含非诗歌内容（如注释或排版符号），需依赖启发式规则清洗，这影响了数据的一致性与可靠性。

常用场景

经典使用场景

在意大利文学计算研究领域，该数据集为诗歌文本挖掘提供了重要资源。研究者利用其进行诗歌风格分析，通过机器学习模型识别不同时期诗人的语言特征和韵律模式，进而探索意大利诗歌的演变规律。该数据集支持诗歌自动分类、作者归属判定等任务，为数字人文研究提供了量化分析基础。

解决学术问题

该数据集有效解决了意大利诗歌数字化研究中的语料匮乏问题，为计算文学研究提供了标准化的数据支撑。通过大规模诗歌文本，学者能够系统分析意大利诗歌的语言演变规律、风格特征传承以及文学流派发展，推动了传统文学研究与计算方法的深度融合，拓展了数字人文的研究边界。

实际应用

在实际应用层面，该数据集支撑了意大利语诗歌教育工具的开发，如自动韵律分析系统和诗歌创作辅助平台。文化机构利用其构建智能诗歌推荐系统，增强公众对意大利文学遗产的认知。同时为语言技术公司提供了高质量的意大利语诗歌语料，用于改进自然语言处理模型的文化适应性。

数据集最近研究