CNR-ILC/gs-dataset-eval
收藏Hugging Face2026-05-02 更新2026-04-26 收录
下载链接:
https://hf-mirror.com/datasets/CNR-ILC/gs-dataset-eval
下载链接
链接失效反馈官方服务:
资源简介:
这是一个用于古希腊纸草学文本中填空任务(gap filling)的评估数据集。数据集包含以下特征:x(带有掩码空缺的文本)、y(领域专家提出的可接受补充列表,即黄金标准)、gap_length(空缺的估计长度)、corpus_id/file_id(原始文档的标识符)。数据来源包括MAAT(机器可操作古代文本语料库)、PDL(Perseus数字图书馆)、First1KGreek和TLG(希腊文辞典)。数据集分为开发集(dev,包含P.Herc.块的开发案例)和测试集(test,包含最终测试案例),均带有黄金标准标签。
Evaluation dataset for the gap filling task in ancient Greek papyrological texts. The dataset includes features such as x (text with masked gaps), y (list of acceptable integrations proposed by domain experts, i.e., gold labels), gap_length (estimated length of the gap), and corpus_id/file_id (identifiers of the original document). Data sources include MAAT (Machine-Actionable Ancient Text corpus), PDL (Perseus Digital Library), First1KGreek, and TLG (Thesaurus Linguae Graecae). The dataset is split into dev (development cases with P.Herc. blocks) and test (final test cases), both containing gold labels.
提供机构:
CNR-ILC
搜集汇总
数据集介绍

构建方式
该数据集专为古希腊纸莎草文献中的文本空缺填补任务而设计,其构建根植于严谨的学术考据。数据源精选自四大古文献数字化宝库,包括MAAT、PDL、First1KGreek与TLG,这些语料均与模型训练所用数据同源,确保了评估场景的生态有效性。每一则样本的构建均通过从批判性文献中提取专家的填补建议作为黄金标签,并巧妙地将原始文本中的空缺部分进行掩蔽,从而形成包含掩蔽文本、专家填补序列、空缺长度估计及文档溯源标识的结构化评估实例。
特点
该数据集的核心亮点在于其高度专业化的评估框架与稀缺的人文属性。所有黄金标签均出自语文学专家之手,代表了领域内可接受的最高水准的填补方案,而非机械生成的伪标签。数据集划分了用于模型校调的开发集与无偏终测的测试集,其中开发集聚焦于赫库兰尼姆纸莎草卷的特定样本群,测试集则涵盖更广泛的案例,双重保障了评估的深度与泛化性。此外,空缺长度与文档溯源信息的纳入,为深入分析模型在不同缺损程度与文献背景下的表现提供了关键元数据支撑。
使用方法
使用该数据集时,研究者和工程师应将其作为古希腊纸莎草文本缺失填补任务的专用测评基准。具体操作中,用户可加载各划分中的文本数据,以高精度的语言模型对掩蔽的文本段进行预测,并将模型输出与数据集中提供的专家填补列表进行匹配比对。评估指标建议采用精确匹配率与召回率,尤其关注模型能否覆盖黄金标签中的任一合理方案。数据集通过Hugging Face Datasets库分发,支持按需加载开发集与测试集,便于集成到现有的评估流水线中,从而客观衡量并推动古代语言智能补全技术的进步。
背景与挑战
背景概述
在古代希腊文献研究中,纸莎草文本因物理破损常出现文字缺失(即“缺文”),这一现象严重阻碍了对古代思想与文化的还原。gs-dataset-eval数据集创建于近年,由致力于古典文献数字化的研究团队构建,依托MAAT、PDL、First1KGreek及TLG等权威语料库,旨在解决缺文填补(gap filling)这一核心研究问题。该数据集通过掩蔽缺文位置并提供专家整合的黄金标签(gold label),为自动填补模型的评估提供了标准化基准,对推动计算语言学与古典学交叉领域的发展具有重要影响。
当前挑战
该数据集面临的核心挑战在于缺文填补本身的高度复杂性:缺文长度不一且语义模糊,即使领域专家也难以提供唯一正确补全,而模型需从多个可接受整合中捕捉学理性语境。构建过程中,团队需从莎草纸编辑中提取专家注释,处理文本来源的多语料差异,并精确标注缺文长度与位置,同时确保黄金标签覆盖所有专家共识,这些步骤涉及对原始文献的深度解读与跨学科协作,构成了数据质量控制的重大挑战。
常用场景
经典使用场景
该数据集gs-dataset-eval专为古希腊纸莎草文献(papyrological texts)中的缺口填补(gap filling)任务而设计,是古典文献学与自然语言处理交叉领域的宝贵资源。在经典使用场景中,研究者需依据被遮蔽的文本片段(x),结合缺口长度(gap_length)等上下文信息,从专家标注的黄金标签(y)出发,训练或评估模型以自动推断出最合理的补全内容。这一过程不仅检验模型对古希腊语言和历史语境的理解深度,更推动了序列到序列(seq2seq)或掩码语言建模(masked language modeling)等学术方法在古典文本修复中的应用。
解决学术问题
该数据集旨在解决古典文献数字化研究中长期存在的核心难题:如何以可复现、可量化且鲁棒的方式自动完成破损纸莎草文本的缺口填补。传统方法依赖语文学家基于个人学识和经验的直觉性推测,缺乏统一标准和可验证性,亦难以规模化应用。gs-dataset-eval通过提供来自权威古文献语料库的标准化评估集,使研究者能够系统比较不同神经语言模型在文本修复任务上的性能,从而推动从专家经验到数据驱动推理范式的学术演进,为古希腊文化遗存的智能重建奠定坚实的方法论基石。
衍生相关工作
基于gs-dataset-eval数据集,学术社区已衍生出多项具有影响力的工作。其中代表性的包括利用Encoder-Decoder架构(如T5变体)在masked文本上微调以学习专家补全偏好的研究,以及引入注意力可视化技术帮助学者理解模型决策依据的解释性论文。另有研究将该数据集扩展至跨领域迁移学习,对比单语与多语言预训练模型在古希腊文本修复上的差异。这些工作不仅丰富了神经符号学与数字文献学的理论工具箱,还催生了专门针对残缺文本生成任务的评估指标(如集成专家评判的模糊匹配度量),推动了古典文献计算的标准化进程。
以上内容由遇见数据集搜集并总结生成



