Loci Similes
收藏arXiv2026-01-12 更新2026-01-14 收录
下载链接:
https://doi.org/10.11588/data/FVCULR
下载链接
链接失效反馈官方服务:
资源简介:
Loci Similes是由康斯坦茨大学团队构建的拉丁文学互文性检测基准数据集,包含约17.2万条文本片段,涵盖从古典时期到晚期古代多位作者的著作。数据集分为查询语料库(83k条)和源语料库(88k条),并包含545条专家验证的互文链接。数据主要来源于Corpus Corporum、Tesserae Project和OpenGreekandLatin等公开数字资源库,通过规则匹配和专家标注流程构建。该数据集旨在支持计算语言学方法在古典文献研究中的应用,解决古代文本中从直接引用到微妙暗示的各类互文关系识别难题,为文化传承和文本接受研究提供量化基础。
Loci Similes is a benchmark dataset for Latin literary intertextuality detection, constructed by a team from the University of Konstanz. It contains approximately 172,000 text fragments, covering works by multiple authors from the Classical period to Late Antiquity. The dataset is divided into a query corpus (83k entries) and a source corpus (88k entries), and includes 545 expert-validated intertextual links. The data is primarily sourced from public digital repositories such as Corpus Corporum, the Tesserae Project, and OpenGreekandLatin, and was constructed through rule-based matching and expert annotation workflows. This dataset aims to support the application of computational linguistics methods in classical philological research, address the challenge of identifying various intertextual relationships in ancient texts ranging from direct quotations to subtle allusions, and provide a quantitative foundation for cultural heritage and text reception studies.
提供机构:
康斯坦茨大学·计算机与信息科学系; 康斯坦茨大学·拉丁语文学系; 苏黎世大学·考古学、古典文献学与古代研究系
创建时间:
2026-01-12
搜集汇总
数据集介绍

构建方式
在古典文献学领域,系统化构建标注数据集对于推动计算方法的进步至关重要。Loci Similes数据集的构建始于对三个主要数字资源库——Corpus Corporum、Tesserae项目和OpenGreekandLatin项目——的文本进行精心采集与整合,形成了一个包含约17.2万个拉丁文文本片段的语料库。该语料库被明确划分为查询语料库(以哲罗姆和拉克坦提乌斯等晚期古代作者为主)和源语料库(涵盖西塞罗、维吉尔等十位经典拉丁作者)。在此基础上,研究团队通过整合现有专家验证的互文链接(如Schropp等人的数据集)并结合基于n-gram匹配的规则方法生成候选对,最终由四位拉丁文学专家依据罕见词汇使用、语料库频率统计以及语义传导功能三项严格标准进行人工标注,构建了包含545个已验证互文链接的高质量基准数据集。
特点
该数据集的核心特点在于其针对拉丁文学互文性检测任务的专门性与严谨性。它不仅规模可观,更通过专家验证确保了标注的权威性与准确性,涵盖了从逐字引用、改写到微妙用典的完整互文性光谱。数据集的独特结构——将查询语料与源语料分离——精准模拟了学者在实际研究中追溯晚期文本对早期经典影响的真实场景。此外,数据集提供的互文链接具有明确的方向性,揭示了文化传承与文本重用的具体路径,为定量分析古典文本的接受史与基督教化过程中的文化融合现象提供了宝贵的实证基础。
使用方法
Loci Similes数据集旨在为评估和比较互文性检测的计算方法提供标准化基准。研究者可利用其进行信息检索任务,将查询文本片段与庞大的源文本索引进行匹配,以识别潜在的互文引用。更进一步的,该数据集支持构建端到端的检测流程,即先通过密集检索模型(如基于句子Transformer的编码器)快速筛选出候选片段,再使用交叉编码器架构的二元分类模型对候选对进行精细的重排序与验证。数据集配套发布的locisimiles Python软件包封装了完整的评估框架,支持用户加载自定义文档、运行预训练或自定义的检测流程,并利用分段误分类率等专门设计的指标进行评估,极大地便利了相关算法的开发与比较研究。
背景与挑战
背景概述
在古典文献学与数字人文交叉领域,追踪文本间的互文关联是揭示文化传承与作者创作渊源的核心议题。Loci Similes数据集由康斯坦茨大学与苏黎世大学的研究团队于2026年联合创建,旨在为拉丁文学中的互文性检测提供标准化基准。该数据集聚焦于解决晚期古代作者(如哲罗姆)对古典文献(如维吉尔、西塞罗)的引用、转述与暗指等复杂互文现象的自动化识别问题。通过整合约17.2万文本片段与545条专家验证的互文链接,该数据集推动了计算语言学方法在古典文本分析中的应用,为重构作者的“虚拟图书馆”及研究古典文化在基督教语境中的嬗变提供了关键数据支撑。
当前挑战
该数据集致力于解决的领域核心挑战在于:拉丁文学中的互文性常表现为词汇形态变异下的转述、语义核心保留但句式重构的暗指等非字面重叠的复杂模式,超越了传统基于n-gram匹配或启发式过滤方法的检测能力。构建过程中的主要挑战包括:首先,互文链接的标注高度依赖领域专家的语言学与文献学知识,需通过罕见词汇使用频率、表达独特性及语义传导功能等多重标准进行人工判别,标注一致性难以保证;其次,原始文献数据分散于不同数字典藏与注释索引中,需进行跨源聚合与文本对齐,且古代文本的正字法变异进一步增加了数据清洗与标准化的难度。
常用场景
经典使用场景
在古典文献学领域,追踪文本间的互文联系是理解文化传承与作者创作渊源的核心任务。Loci Similes数据集为这一研究提供了标准化的基准,其经典使用场景在于评估和优化计算模型对拉丁文学中互文关系的检测能力。通过包含约17.2万文本片段及545条专家验证的互文链接,该数据集使研究者能够系统测试嵌入模型、分类模型及端到端流程在识别从直引到隐晦用典等多样化互文形式时的效能,为古典文本的数字化分析奠定了实证基础。
衍生相关工作
该数据集的推出催生了一系列围绕拉丁互文性检测的经典研究工作。早期研究如Burns等人利用Word2Vec模型进行语义排名,而Gong等人则引入LatinBERT以提升语境感知能力。Manjavacas等人将互文检测建模为信息检索任务,Schropp等人则专注于微引用的规则过滤方法。这些工作逐步从静态词向量转向上下文敏感的Transformer模型,Loci Similes作为基准数据集,为这些方法的性能比较与迭代优化提供了统一平台,推动了计算古典文献学方法论的持续演进。
数据集最近研究
最新研究方向
在古典文献学与数字人文的交叉领域,Loci Similes数据集的推出标志着拉丁文学互文性检测研究进入了基于大语言模型的精细化探索阶段。该数据集通过整合约17.2万文本片段与545条专家验证的平行段落,为超越传统词汇匹配的语义相似性计算提供了标准化基准。当前前沿研究聚焦于开发端到端的检索-重排混合架构,利用如E5-large等先进嵌入模型进行初步候选检索,再通过XLM-RoBERTa等分类模型进行精细判别,以捕捉从直接引用到隐性典故的复杂互文光谱。这一进展不仅推动了古代文本文化传承与基督教话语重构的量化分析,更通过开源工具包locisimiles实现了学术工作流程的范式转换,将人工核查工作量降低了99%的同时保持了近80%的相关性召回,为跨时代文本对话研究开辟了可计算的新路径。
相关研究论文
- 1Loci Similes: A Benchmark for Extracting Intertextualities in Latin Literature康斯坦茨大学·计算机与信息科学系; 康斯坦茨大学·拉丁语文学系; 苏黎世大学·考古学、古典文献学与古代研究系 · 2026年
以上内容由遇见数据集搜集并总结生成



