A Bolu
收藏arXiv2026-04-21 更新2026-04-23 收录
下载链接:
https://www.lacanas.it/
下载链接
链接失效反馈官方服务:
资源简介:
A Bolu是由比萨大学和那不勒斯东方大学联合创建的首个撒丁岛即兴诗歌结构化语料库,专注于Logudorese方言的cantada logudoresa诗歌形式。该数据集包含2,835个诗节,共计141,321个词汇标记,数据源自撒丁文化网站làcanas.it的数字化转录文本。语料采用JSON层级结构存储,包含诗人标识、韵律类型、执行时间戳等丰富元数据,并通过去重、实体解析和缺失标注等严格流程进行标准化处理。该资源为计算语言学提供了研究少数语言即兴创作中公式化模式(如Parry-Lord理论)的基准,旨在推动对低资源口头传统的定量分析和NLP工具开发。
A Bolu is the first structured corpus of Sardinian improvised poetry, jointly developed by the University of Pisa and the University of Naples L'Orientale, focusing on the cantada logudoresa poetic form of the Logudorese dialect. This dataset contains 2,835 stanzas, totaling 141,321 lexical tokens, and is sourced from digitized transcriptions hosted on the Sardinian cultural website làcanas.it. The corpus is stored in a hierarchical JSON structure, with rich metadata including poet identifiers, prosodic types, execution timestamps and other related information, and has been standardized through rigorous workflows such as deduplication, entity resolution and missing annotation handling. This resource serves as a benchmark for computational linguistics research on formulaic patterns in minority-language improvised creation (e.g., Parry-Lord theory), aiming to promote quantitative analysis of low-resource oral traditions and the development of NLP tools.
提供机构:
比萨大学; 那不勒斯东方大学
创建时间:
2026-04-21
搜集汇总
数据集介绍

构建方式
在计算语言学日益关注少数语言资源的背景下,A Bolu数据集的构建旨在系统化保存撒丁岛即兴诗歌这一濒危口头传统。该数据集通过程序化采集自专注于撒丁文化的在线新闻档案làcanas.it,严格遵循转录质量、体裁一致性与语言变体单一性三项标准,确保了语料的语言学同质性与可靠性。采集的诗歌表演被编码为分层的JSON结构,完整保留了每场辩论的全局元数据与诗节级转录单元,包括诗人标识、格律形式、执行时间等结构化属性。数据经过严格的去重、实体归一化、结构完整性校验与时间标准化处理,最终形成一个包含55场表演、2835个诗节、总计141,321词符的结构化数字语料库。
使用方法
该数据集为计算语言学和数字人文领域研究即兴口头诗歌传统提供了可复现的分析框架。研究者可利用其层次化JSON结构进行复杂的关系查询,例如关联特定主题下的诗人表现或分析不同格律形式的执行时间模式。在计算文体学方面,数据集可作为基准,用于探究诗人的‘风格签名’、词汇复杂性以及实时即兴压力下的语言选择。通过应用描述性统计指标(如MATTR、MTLD)与计算语言学技术,学者能够定量映射诗歌文本的特征,并检验口头程式性假说。此外,数据集的结构支持与现代NLP流程的互操作,便于开展词性标注、n-gram分析等下游任务,为开发包容性语言技术工具奠定基础。
背景与挑战
背景概述
随着自然语言处理领域对低资源与少数语言兴趣的增长,撒丁岛即兴诗歌这一基于实时表演与格律修辞能力的口头传统,在计算语言学中仍属未充分探索的领域。为弥合这一方法论空白,Silvio Calderaro与Johanna Monti于2026年创建了A Bolu数据集,这是首个专门针对撒丁岛Logudorese方言即兴诗歌(cantada logudorese)的结构化语料库。该数据集收录了2,835个诗节,共计141,321个词符,通过结合描述性统计指标与计算语言学技术,旨在系统分析诗歌文本特征,验证口头程式理论,并为包容性NLP工具的发展提供重要资源,从而推动对少数语言口头遗产的数字化保存与计算研究。
当前挑战
A Bolu数据集致力于解决撒丁岛即兴诗歌这一低资源语言口头传统的计算分析问题,其核心挑战在于如何对高度依赖实时表演、格律约束与主题即兴的诗歌进行结构化建模与量化分析。构建过程中面临多重困难:原始转录文本碎片化且分散,存在大量不完整诗节与元数据缺失;口头传统的特性导致文本稳定性差,缺乏标准化拼写与注释框架;数据采集需从非结构化数字档案中提取,并处理诗人名称变体、重复记录与时间标注不一致等问题。此外,将表演语境、格律形式与时间动态等多维信息整合为可计算的结构化格式,同时保持语料库的语言学一致性与历史真实性,构成了数据集构建的主要技术障碍。
常用场景
经典使用场景
在计算语言学和数字人文领域,A Bolu数据集为研究撒丁岛即兴诗歌传统提供了结构化分析框架。该数据集通过收录2835个诗节并标注丰富的元数据,使得学者能够深入探索即兴创作中的格律模式、词汇复杂性和时间动态。其经典应用场景包括对诗歌文本进行多维度的计算风格学分析,例如通过词汇多样性指标和n-gram模型来识别诗人的个人风格特征,从而揭示口头传统中的创作规律。
解决学术问题
A Bolu数据集有效解决了少数语言资源匮乏背景下口头遗产保存的学术难题。它通过构建首个撒丁岛即兴诗歌的结构化语料库,为验证帕里-洛德口头程式理论提供了实证基础。该资源使得研究者能够定量分析即兴诗歌中的公式化表达模式,探讨诗人在实时创作压力下如何平衡格律约束与主题连贯性,从而深化对口头创作认知机制的理解。
实际应用
该数据集的实际应用延伸至文化遗产数字化保护与教育领域。博物馆和文化机构可利用其结构化数据开发交互式展示系统,向公众呈现撒丁岛诗歌的韵律结构和即兴创作过程。语言技术开发者则可借助该资源训练面向少数语言的NLP工具,例如撒丁语自动韵律分析系统或诗歌生成模型,促进濒危语言在数字时代的活化传承。
数据集最近研究
最新研究方向
在计算语言学和数字人文领域,针对少数语言及口头传统遗产的保护与分析正成为前沿热点。A Bolu数据集作为首个专用于撒丁岛即兴诗歌(cantada logudoresa)的结构化语料库,其最新研究方向聚焦于利用多维计算模型深入探索口头-公式化理论(Oral-Formulaic Theory)在实时即兴创作中的实证表现。研究通过高阶n-gram分析、词汇多样性指标(如MATTR和MTLD)以及执行时间数据,揭示了诗人个体在严格格律与实时压力下展现的公式化层级结构,包括跨诗人共享模板与个人独有公式的共存现象。尤为重要的是,该数据集支持了对即兴诗歌中互动性公式化策略的考察,例如对话镜像(dialogic mirroring)和论证反转,这为理解口头传统中的竞争性创作机制提供了新的计算视角。这些进展不仅推动了少数语言NLP工具向更具包容性的方向发展,也为濒危口头表演艺术的数字化保存与量化研究建立了可复现的框架。
相关研究论文
- 1A Bolu: A Structured Dataset for the Computational Analysis of Sardinian Improvisational Poetry比萨大学; 那不勒斯东方大学 · 2026年
以上内容由遇见数据集搜集并总结生成



