logion_error_dataset
收藏arXiv2024-10-15 更新2024-10-17 收录
下载链接:
https://github.com/brooksca3/logion_error_dataset
下载链接
链接失效反馈官方服务:
资源简介:
logion_error_dataset是由普林斯顿大学、海德堡大学和麻省理工学院的研究团队创建的,专门用于检测古希腊文本中的真实错误。该数据集包含763条经过领域专家标注的错误实例,涵盖抄写、印刷和数字化过程中引入的错误。数据集的创建过程包括使用BERT条件概率指标对1000个单词进行采样,并由领域专家进行标注。该数据集主要用于评估和开发更有效的错误检测算法,以帮助学者恢复古希腊文本的原始内容。
提供机构:
普林斯顿大学,海德堡大学,麻省理工学院
创建时间:
2024-10-15
原始信息汇总
中世纪希腊语错误标注数据集
数据集概述
该数据集用于论文《中世纪希腊语错误标注数据集及检测基线》,旨在通过机器学习方法加速发现中世纪文本中的真实错误。
数据文件
- 文件位置:
dataset_files目录 - 文件列表:
errors_split_1.jsonerrors_split_5.jsonrandom_assumed_true_negatives.json
文件说明
errors_split_1.json和errors_split_5.json: 包含500行字典,分别对应Michael Psellos作品的第1部分和第5部分。random_assumed_true_negatives.json: 包含从非标记词中随机选择的词,假定为无错误。
数据结构
每个字典包含以下键:
- Transmitted Word: 传输文本中的词。
- Word Index in Text: 词在
text.split()数组中的索引。 - Model-Suggested Alternative: 模型建议的替代词。
- Label: 领域专家的标签,指示候选错误的性质。
- Notes: 领域专家的附加注释,提供上下文或进一步的细节。
- Text: 包含传输词的周围文本片段。
标签说明
- GOOD FLAG: 领域专家识别出传输文本中的真实错误。
- BAD: 标记的词不是真实错误。
- PLAUSIBLE FLAG: 标记似乎合理,但需要进一步工作确认。
- UNCERTAIN: 需要进一步工作以确定标记是否为真实错误。
- BAD DATA: 错误源于作者数据组装、清理或标准化的问题。
- EDITORIAL: 标记的问题不是文本问题,而是不同编辑决策(如标点或间距)可接受的情况。
搜集汇总
数据集介绍

构建方式
该数据集的构建基于对中世纪希腊文本中真实错误的识别与标注。研究团队利用BERT条件概率生成的指标,筛选出1000个最可能包含错误的单词,随后由领域专家进行标注,确定这些单词是否为错误。这一过程不仅涵盖了手稿抄写、印刷和数字化过程中引入的错误,还特别关注了那些因逻辑合理性而长期未被发现的隐秘错误。
特点
logion_error_dataset的显著特点在于其真实性和复杂性。该数据集包含了中世纪希腊文本中真实积累的错误,而非人工生成的错误,这使得其成为评估错误检测方法的宝贵资源。此外,数据集中的错误类型多样,包括抄写错误、印刷错误和数字化错误,其中抄写错误的检测尤为困难,因为这些错误往往具有逻辑上的合理性。
使用方法
该数据集可用于开发和评估中世纪希腊文本错误检测算法。研究者可以通过使用该数据集训练和测试模型,以提高其在真实文本中的错误检测能力。具体使用方法包括但不限于:利用数据集进行监督学习,训练模型识别不同类型的错误;通过交叉验证评估模型的性能;以及探索无监督学习方法,如基于BERT的条件概率评分和ELECTRA判别器评分,以发现新的错误检测策略。
背景与挑战
背景概述
在古代文本传承过程中,错误不可避免地积累。这些错误因其隐蔽性而难以识别,有些甚至未被发现地流传了数百年。尽管先前的工作在人工生成的错误上评估了错误检测方法,但我们首次引入了一个包含中世纪希腊语真实错误的数据集,使错误检测方法能够在真正积累的错误上进行评估。该数据集的创建利用了BERT条件性指标,从1000个更有可能包含错误的单词中进行采样,并由领域专家进行标注。通过这种方法,我们提出并评估了新的错误检测方法,发现基于判别器的检测器在分类真实错误方面比其他方法提高了5%的真阳性率。此外,我们还观察到,抄写错误比印刷或数字化错误更难检测。
当前挑战
该数据集面临的挑战包括:1) 解决领域问题,即在古代和中世纪文本中检测错误;2) 构建过程中遇到的挑战,如错误的高隐蔽性和领域专家标注的高成本。此外,抄写错误因其逻辑上的合理性而更难被检测,这使得构建一个高质量的错误标注数据集变得尤为困难。数据集的创建不仅需要高效的机器学习方法,还需要大量领域专家的参与和时间投入,以确保标注的准确性和可靠性。
常用场景
经典使用场景
在古代文本的传承过程中,错误不可避免地积累。这些错误由于其隐蔽性,往往难以识别。logion_error_dataset 数据集首次提供了真实古代希腊文本中的错误标注,使得错误检测方法能够在实际积累的错误上进行评估。通过使用BERT条件概率指标,该数据集从1000个更可能包含错误的单词中进行采样,并由领域专家进行标注,从而为错误检测方法提供了一个真实的基准。
实际应用
在实际应用中,logion_error_dataset 数据集为古代文本的数字化和修复提供了强有力的工具。通过训练和评估错误检测模型,研究人员可以更高效地识别和纠正古代文本中的错误,从而提高数字化文本的准确性和可靠性。这对于历史学、语言学和文化遗产保护等领域具有重要价值,有助于更好地保存和传承人类文化遗产。
衍生相关工作
logion_error_dataset 数据集的发布催生了一系列相关研究工作。例如,基于该数据集,研究者提出了新的错误检测方法,如受蛋白质工程启发的伪对数似然比(PLLR)和使用ELECTRA判别器的检测方法。此外,该数据集还推动了对古代语言模型的进一步研究,特别是在预训练和微调策略上的探索。这些工作不仅提升了错误检测的准确性,还为古代文本的自动化修复开辟了新的研究方向。
以上内容由遇见数据集搜集并总结生成



