CantusCorpus v1.0
收藏arXiv2026-03-12 更新2026-03-14 收录
下载链接:
http://hdl.handle.net/11234/1-6041
下载链接
链接失效反馈官方服务:
资源简介:
CantusCorpus v1.0是由查尔斯大学等机构联合构建的格里高利圣咏数据集,整合了Cantus索引网络中截至2025年5月的全部数据,包含888,010条圣咏记录和2,278条来源记录。数据集通过ETL流程从分散的18个圣咏数据库中提取并标准化,涵盖文本、旋律、礼仪位置等核心字段。其创建旨在解决计算音乐学研究中对大规模标准化圣咏数据的需求,支持旋律传播分析、礼仪传统比较等跨学科研究,并通过PyCantus库实现高效数据访问与实验复现。
CantusCorpus v1.0 is a Gregorian chant dataset jointly constructed by Charles University and other institutions. It integrates all data in the Cantus Index Network as of May 2025, containing 888,010 chant records and 2,278 source records. The dataset is extracted and standardized from 18 disparate chant databases via an ETL pipeline, covering core fields such as text, melody, liturgical position and other relevant attributes. It was created to address the demand for large-scale standardized chant data in computational musicology research, supporting interdisciplinary research such as melody dissemination analysis and liturgical tradition comparison, and enabling efficient data access and experimental reproducibility via the PyCantus library.
提供机构:
查尔斯大学; 朱利叶斯-马克西米利安-维尔茨堡大学; 达尔豪斯大学
创建时间:
2026-03-12
原始信息汇总
CantusCorpus v1.0 数据集概述
基本信息
- 标题: CantusCorpus v1.0
- 永久标识符: http://hdl.handle.net/11234/1-6041
- 发布日期: 2025-11-19
- 类型: 语料库、文本
- 规模: 888010 个条目
- 主要语言: 拉丁语
- 许可协议: Creative Commons - Attribution-NonCommercial-ShareAlike 4.0 International (CC BY-NC-SA 4.0)
作者与出版
- 作者: Anna Dvořáková; Debra Lacoste 和 Hajič jr., Jan
- 出版机构: Charles University, Faculty of Mathematics and Physics, Institute of Formal and Applied Linguistics (UFAL)
项目与资源链接
- 项目网址: https://ufal.mff.cuni.cz/grants/dact
- 演示/代码库网址: https://github.com/dact-chant/CantusCorpus
数据集描述
CantusCorpus 1.0 是一个用于计算研究的大型格里高利圣咏数据集。该数据集包含通过 Cantus Index 联合搜索界面可访问的所有圣咏,整合了来自 10 个独立圣咏数据库的数据。主要内容是目录记录:即哪些圣咏出现在哪些手稿中。Cantus ID 机制(源于 Cantus Database 的长期历史)使得我们能够识别同一圣咏在不同手稿中的多个实例。因此,CantusCorpus 1.0 包含两个组成部分:圣咏记录 (chants.csv) 和来源(主要是手稿)记录 (sources.csv)。CantusCorpus 本质上位于 Cantus Database 及整个 Cantus Index 兼容圣咏数据库网络的下游:我们不重新审视任何人的编辑决策。然而,该数据集的价值在于,将数据库数十年存在期间做出的所有编辑决策的总和作为一个数据集提供给计算研究使用。PyCantus 库 (https://github.com/dact-chant/PyCantus) 使得处理此数据集变得(几乎)容易。随附的源代码 (CantusCorpus-1.0.zip) 包含一个子目录,其中包含此特定版本 CantusCorpus (v1.0) 的代码和文档。我们预计每年会重新收集数据集,因为 Cantus 网络每年增长数万条圣咏记录。
致谢
- 资助机构: Social Sciences and Humanities Research Council of Canada
- 项目代码: 895-2023-1002
- 项目名称: Digital Analysis of Chant Transmission
主题
- 格里高利圣咏
- 数字音乐学
- Cantus Index
- 音乐
所属集合
- LINDAT / CLARIAH-CZ Data & Tools
文件列表
- CantusCorpus-1.0.zip
- 大小: 1.36 MB
- 格式: application/zip
- 描述: Zip
- MD5: f6628216d3599ede54ea20755ed4942e
- chants.csv
- 大小: 235.13 MB
- 格式: text/csv
- 描述: CSV
- MD5: f76e07ec358779ed33866c09b6905081
- sources.csv
- 大小: 299.95 KB
- 格式: text/csv
- 描述: CSV
- MD5: 2d3e0d2cd1d1f4443a345d72abcc45a5
搜集汇总
数据集介绍

构建方式
在数字音乐学领域,CantusCorpus v1.0的构建体现了对格里高利圣咏数据资源的系统性整合。该数据集通过提取-转换-加载流程,从Cantus Index网络中的多个数据库中收集了截至2025年5月的888,010条圣咏记录和2,278条来源记录。构建过程包括从Cantus Index的JSON端点抓取圣咏数据,并针对各数据库前端编写独立的来源元数据采集器。数据清洗阶段涉及去重、字段标准化以及手动验证来源一致性,确保了数据集在反映当前数据库共识的同时,保持了结构的统一性与可追溯性。
特点
CantusCorpus v1.0的核心特点在于其规模与代表性,涵盖了跨越40年的格里高利圣咏编目成果,是目前最大的可计算圣咏数据集之一。数据集不仅包含圣咏文本与Cantus ID标识,还整合了来源手稿的元数据,如年代、出处与礼仪类型,为研究圣咏传统的时空演变提供了丰富维度。其设计强调向下兼容与可更新性,附带的ETL代码支持未来版本的迭代生成,同时通过PyCantus库实现了数据模型的独立封装,便于扩展至非Cantus体系的圣咏数据源。
使用方法
该数据集的使用依托于配套的PyCantus Python库,用户可通过加载CSV文件快速构建圣咏与来源对象集合,并利用过滤机制实现可复现的数据子集选择。PyCantus提供了数据模型抽象、旋律编码转换及操作历史跟踪等功能,支持从基础数据探索到复杂分析(如旋律模式检测或传统网络建模)的多层次应用。数据集特别适用于数字人文教育、跨学科音乐学分析以及大规模圣咏传统比较研究,其开放许可与详细文档进一步降低了非专业用户的使用门槛。
背景与挑战
背景概述
CantusCorpus v1.0 数据集是数字格里高利圣咏研究领域的一项关键基础设施,由查尔斯大学、维尔茨堡大学和达尔豪斯大学的研究团队于2025年中期创建。该数据集整合了以Cantus Index为中心的数据库网络中超过88.8万条圣咏记录和2278条手稿源记录,旨在解决长期以来数字圣咏数据仅能通过在线界面零散访问的瓶颈。其核心研究问题在于如何将分散在近二十个独立数据库中的海量圣咏编目数据,转化为可供计算音乐学和数字人文研究直接使用的统一、可复现的资源。该数据集的发布标志着格里高利圣咏研究从传统的文献编目向大规模计算分析的重要范式转变,为探索圣咏传统的传播、旋律演变及礼仪结构等宏观问题奠定了实证基础。
当前挑战
CantusCorpus v1.0 所应对的核心领域挑战在于实现跨数据库的圣咏数据计算化访问,以支持诸如旋律模式分析、礼仪传统网络建模和圣咏曲目总量估计等大规模计算研究。在构建过程中,数据集面临多重具体挑战:首要挑战是数据异构性,各源数据库在节日名称拼写、手稿来源地描述和年代标注等关键元数据上缺乏受控词汇表,导致跨库数据融合困难。其次,源数据获取机制不统一,圣咏记录可通过标准化API获取,而手稿元数据则需针对不同数据库前端实施定制化爬取,增加了数据完整性与一致性的保障难度。此外,数据集还需处理记录去重、非公开源数据剔除以及历史数据模型差异带来的语义对齐问题,这些均对构建高质量、可更新的语料库提出了严峻考验。
常用场景
经典使用场景
在格里高利圣咏的数字化学术研究中,CantusCorpus v1.0 数据集为学者提供了一个统一的、可计算的大规模圣咏目录资源。该数据集整合了Cantus Index网络中截至2025年中期的全部数据,涵盖近90万条圣咏记录和超过2200个手稿来源,使得研究人员能够跨越传统数据库边界,对圣咏的文本、旋律、礼仪位置及手稿元数据进行整体性分析。这一经典使用场景尤其体现在对圣咏传统的大规模比较研究中,例如通过分析不同地区、不同时期手稿中同一圣咏的分布与变体,揭示礼仪音乐的传播路径与地域性特征。
实际应用
在实际应用层面,CantusCorpus v1.0 及其配套的PyCantus库为数字人文教育与跨学科研究提供了便捷入口。教育机构可将其用于音乐学、历史学或数据科学课程,让学生通过实际数据操作理解中世纪礼仪音乐的复杂结构。同时,该数据集也支持文化遗产的数字化保存与传播,使全球学者能够远程访问和分析珍贵手稿中的音乐内容。此外,其数据模型的设计允许整合其他独立圣咏项目的数据,如Corpus Monodicum,为构建更全面的欧洲单声部音乐数字资源网络奠定了基础。
衍生相关工作
围绕CantusCorpus v1.0 已衍生出一系列重要的计算圣咏研究。例如,基于该数据集的旋律分析工作重新审视了圣咏的调式分类问题,采用机器学习方法超越了传统基于音域与终止式的理论框架。网络模型被用于揭示圣咏手稿之间的传统关联,可视化工具如ChantMapper则实现了圣咏传统的地理空间映射。此外,研究团队利用该数据集估计了尚未被发现的圣咏数量,并探索了圣咏旋律的‘方言’差异与政治历史背景之间的关联。这些工作共同推动了格里高利圣咏研究从定性描述向定量实证的范式转变。
以上内容由遇见数据集搜集并总结生成



