Corpus of the Epigraphy of the Italian Peninsula in the 1st Millennium BCE
收藏github2022-04-21 更新2024-05-31 收录
下载链接:
https://github.com/ReubenJPitts/Corpus-of-the-Epigraphy-of-the-Italian-Peninsula-in-the-1st-Millennium-BCE
下载链接
链接失效反馈官方服务:
资源简介:
这是一个专注于公元前1千年意大利半岛铭文的数据库,涵盖了Messapic、Venetic、Sabellic语言和公元前约100年前的铭文拉丁语。该数据库旨在为古代意大利语言提供一个语言学导向的、公开可用的数字研究语料库,支持高分辨率和可比较的语言信息。
This is a database focused on inscriptions from the Italian peninsula in the 1st millennium BC, encompassing the Messapic, Venetic, Sabellic languages, and Latin inscriptions from around 100 BC. The database aims to provide a linguistically-oriented, publicly accessible digital research corpus for ancient Italian languages, supporting high-resolution and comparable linguistic information.
创建时间:
2021-04-28
原始信息汇总
数据集概述
数据集名称
Corpus of the Epigraphy of the Italian Peninsula in the 1st Millennium BCE (CEIPoM)
数据集内容
- 覆盖语言:Messapic, Venetic, Sabellic languages, and epigraphic Latin up to about 100 BCE.
- 数据库结构:
- Texts:包含个别铭文的整体信息,如日期和来源。
- Sentences:包含铭文中的个别句法单位信息,包括文本的基本转录。
- Tokens:包含特定句子中的词汇(单词和附着词)信息,如形式及其与其他词汇的句法关系。
- Analysis:提供每个词汇的语言分析,包括POS标记、词形化和语义类别。
- Links:允许数据库中的文本通过Trismegistos ID链接到广泛的元数据和文献。
数据集目的
- 提供一个面向语言学且公开可用的数字研究语料库,用于古意大利语言的研究。
- 旨在填补现有数据访问的限制,提供完整的、高度注释的语言数据。
数据集使用
- 数据以.csv格式(utf-16编码)发布,可通过Python、R或电子表格软件如LibreOffice Calc进行分析。
引用方式
- 引用格式:Pitts, R.J., 2022. Corpus of the Epigraphy of the Italian Peninsula in the 1st Millennium BCE (CEIPoM). Journal of Open Humanities Data, 8, p.1. DOI: http://doi.org/10.5334/johd.65
- 注意指定使用的数据集版本(当前为CEIPoM 1.3)。
许可协议
搜集汇总
数据集介绍

构建方式
CEIPoM数据集以意大利半岛公元前一千年间的铭文为研究对象,构建了一个多层次的语料库。该数据集通过四个层级的关系数据库结构进行组织,分别为文本、句子、词汇和分析。每个层级与其下级形成一对多的关系,确保了数据的详细性和可追溯性。文本层级包含铭文的整体信息,句子层级记录句法单元,词汇层级提供词汇形式及其句法关系,分析层级则对每个词汇进行语言学分析,包括词性标注和语义分类等。
特点
CEIPoM数据集的特点在于其专注于古代意大利半岛的多种语言,包括梅萨皮克语、威尼托语、萨贝利克语以及公元前100年之前的拉丁铭文。数据集提供了高分辨率的语言学信息,特别适合用于语言接触和历史语言学的研究。此外,数据集通过Trismegistos链接与外部资源关联,增强了数据的可扩展性和研究价值。所有数据以UTF-16编码的CSV文件形式发布,便于使用Python、R或电子表格软件进行分析。
使用方法
CEIPoM数据集的使用方法灵活多样,研究者可以通过Python或R进行数据分析,也可以使用LibreOffice Calc等电子表格软件直接查看和处理数据。数据集的结构化设计使得用户能够从文本、句子、词汇和分析四个层级进行深入研究。此外,数据集提供了详细的字段说明和使用指南,帮助用户快速上手。为了确保研究的可重复性,建议在引用数据集时注明所使用的版本号。
背景与挑战
背景概述
《意大利半岛公元前一千年铭文集》(Corpus of the Epigraphy of the Italian Peninsula in the 1st Millennium BCE,简称CEIPoM)是一个专注于公元前一千年意大利半岛语言学的数据库,涵盖了梅萨皮克语、威尼托语、萨贝利克语以及公元前100年之前的拉丁铭文。该数据集由Reuben J. Pitts主导,作为其博士研究项目的一部分,旨在填补古代意大利语言研究领域的空白。古代意大利在公元前一千年呈现出独特的语言多样性,然而这些语言的数字化资源极为有限,且缺乏足够的语言学注释。CEIPoM的创建为印欧语系研究者、历史语言学家和类型学家提供了一个高分辨率、可互比的数字化研究语料库,极大地推动了相关领域的研究进展。
当前挑战
CEIPoM数据集在构建过程中面临多重挑战。首先,古代意大利语言的多样性和碎片化特性使得数据的收集和整理极为复杂,许多语言仅存于印刷版语料库中,缺乏系统的语言学分析。其次,数字化过程中需要高精度的语言学注释,包括词性标注、词形还原和语义分类等,这对数据处理的准确性和一致性提出了极高要求。此外,由于铭文的保存状态不一,部分文本存在残缺或难以解读的情况,导致某些词汇的多种解释可能性,进一步增加了数据标注的难度。最后,尽管CEIPoM已链接至Trismegistos等外部资源以补充元数据和文献信息,但如何确保数据的持续更新与维护,仍是未来需要解决的关键问题。
常用场景
经典使用场景
CEIPoM数据集在历史语言学研究中扮演着至关重要的角色,尤其是在研究公元前一千年意大利半岛上的多种古代语言时。该数据集通过提供详细的碑文文本及其语言学分析,为研究者提供了一个丰富的资源库,用于探索古代语言的语法结构、词汇演变以及语言接触现象。
解决学术问题
CEIPoM数据集解决了古代意大利语言研究中数据分散且难以获取的问题。通过将Messapic、Venetic、Sabellic语言以及早期拉丁碑文数字化并加以详细注释,该数据集为印欧语系研究者、历史语言学家和类型学家提供了一个统一的、可比较的研究平台,极大地促进了这些领域的深入分析。
衍生相关工作
CEIPoM数据集催生了一系列相关研究,特别是在古代语言接触和语言变化领域。例如,Pitts(2020)利用该数据集对Sabellic语言的时态-体-语气系统进行了深入分析。此外,该数据集还与其他数字项目(如Trismegistos、EDCS和EDR)建立了链接,推动了跨学科研究的合作与发展。
以上内容由遇见数据集搜集并总结生成



