logion_error_dataset
收藏arXiv2024-10-15 更新2024-10-17 收录
下载链接:
https://github.com/brooksca3/logion_error_dataset
下载链接
链接失效反馈官方服务:
资源简介:
logion_error_dataset是由普林斯顿大学、海德堡大学和麻省理工学院的研究团队创建的,专门用于检测古希腊文本中的真实错误。该数据集包含763条经过领域专家标注的错误实例,涵盖抄写、印刷和数字化过程中引入的错误。数据集的创建过程包括使用BERT条件概率指标对1000个单词进行采样,并由领域专家进行标注。该数据集主要用于评估和开发更有效的错误检测算法,以帮助学者恢复古希腊文本的原始内容。
The Logion Error Dataset was created by research teams from Princeton University, Heidelberg University, and the Massachusetts Institute of Technology (MIT), and is specifically designed for detecting genuine errors in ancient Greek texts. This dataset contains 763 error instances annotated by domain experts, covering errors introduced during transcription, printing, and digitization processes. The dataset construction process included sampling 1000 words using BERT's conditional probability metric, followed by annotation from domain experts. It is primarily used to evaluate and develop more effective error detection algorithms to help scholars restore the original content of ancient Greek texts.
提供机构:
普林斯顿大学,海德堡大学,麻省理工学院
创建时间:
2024-10-15
原始信息汇总
中世纪希腊语错误标注数据集
数据集概述
该数据集用于论文《中世纪希腊语错误标注数据集及检测基线》,旨在通过机器学习方法加速发现中世纪文本中的真实错误。
数据文件
- 文件位置:
dataset_files目录 - 文件列表:
errors_split_1.jsonerrors_split_5.jsonrandom_assumed_true_negatives.json
文件说明
errors_split_1.json和errors_split_5.json: 包含500行字典,分别对应Michael Psellos作品的第1部分和第5部分。random_assumed_true_negatives.json: 包含从非标记词中随机选择的词,假定为无错误。
数据结构
每个字典包含以下键:
- Transmitted Word: 传输文本中的词。
- Word Index in Text: 词在
text.split()数组中的索引。 - Model-Suggested Alternative: 模型建议的替代词。
- Label: 领域专家的标签,指示候选错误的性质。
- Notes: 领域专家的附加注释,提供上下文或进一步的细节。
- Text: 包含传输词的周围文本片段。
标签说明
- GOOD FLAG: 领域专家识别出传输文本中的真实错误。
- BAD: 标记的词不是真实错误。
- PLAUSIBLE FLAG: 标记似乎合理,但需要进一步工作确认。
- UNCERTAIN: 需要进一步工作以确定标记是否为真实错误。
- BAD DATA: 错误源于作者数据组装、清理或标准化的问题。
- EDITORIAL: 标记的问题不是文本问题,而是不同编辑决策(如标点或间距)可接受的情况。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对中世纪希腊文本中真实错误的识别与标注。研究团队利用BERT条件概率生成的指标,筛选出1000个最可能包含错误的单词,随后由领域专家进行标注,确定这些单词是否为错误。这一过程不仅涵盖了手稿抄写、印刷和数字化过程中引入的错误,还特别关注了那些因逻辑合理性而长期未被发现的隐秘错误。
特点
logion_error_dataset的显著特点在于其真实性和复杂性。该数据集包含了中世纪希腊文本中真实积累的错误,而非人工生成的错误,这使得其成为评估错误检测方法的宝贵资源。此外,数据集中的错误类型多样,包括抄写错误、印刷错误和数字化错误,其中抄写错误的检测尤为困难,因为这些错误往往具有逻辑上的合理性。
使用方法
该数据集可用于开发和评估中世纪希腊文本错误检测算法。研究者可以通过使用该数据集训练和测试模型,以提高其在真实文本中的错误检测能力。具体使用方法包括但不限于:利用数据集进行监督学习,训练模型识别不同类型的错误;通过交叉验证评估模型的性能;以及探索无监督学习方法,如基于BERT的条件概率评分和ELECTRA判别器评分,以发现新的错误检测策略。
背景与挑战
背景概述
在古代文本传承过程中,错误不可避免地积累。这些错误因其隐蔽性而难以识别,有些甚至未被发现地流传了数百年。尽管先前的工作在人工生成的错误上评估了错误检测方法,但我们首次引入了一个包含中世纪希腊语真实错误的数据集,使错误检测方法能够在真正积累的错误上进行评估。该数据集的创建利用了BERT条件性指标,从1000个更有可能包含错误的单词中进行采样,并由领域专家进行标注。通过这种方法,我们提出并评估了新的错误检测方法,发现基于判别器的检测器在分类真实错误方面比其他方法提高了5%的真阳性率。此外,我们还观察到,抄写错误比印刷或数字化错误更难检测。
当前挑战
该数据集面临的挑战包括:1) 解决领域问题,即在古代和中世纪文本中检测错误;2) 构建过程中遇到的挑战,如错误的高隐蔽性和领域专家标注的高成本。此外,抄写错误因其逻辑上的合理性而更难被检测,这使得构建一个高质量的错误标注数据集变得尤为困难。数据集的创建不仅需要高效的机器学习方法,还需要大量领域专家的参与和时间投入,以确保标注的准确性和可靠性。
常用场景
经典使用场景
在古代文本的传承过程中,错误不可避免地积累。这些错误由于其隐蔽性,往往难以识别。logion_error_dataset 数据集首次提供了真实古代希腊文本中的错误标注,使得错误检测方法能够在实际积累的错误上进行评估。通过使用BERT条件概率指标,该数据集从1000个更可能包含错误的单词中进行采样,并由领域专家进行标注,从而为错误检测方法提供了一个真实的基准。
实际应用
在实际应用中,logion_error_dataset 数据集为古代文本的数字化和修复提供了强有力的工具。通过训练和评估错误检测模型,研究人员可以更高效地识别和纠正古代文本中的错误,从而提高数字化文本的准确性和可靠性。这对于历史学、语言学和文化遗产保护等领域具有重要价值,有助于更好地保存和传承人类文化遗产。
衍生相关工作
logion_error_dataset 数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者提出了新的错误检测方法,如受蛋白质工程启发的伪对数似然比(PLLR)和使用ELECTRA判别器的检测方法。此外,该数据集还推动了对古代语言模型的进一步研究,特别是在预训练和微调策略上的探索。这些工作不仅提升了错误检测的准确性,还为古代文本的自动化修复开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成



