logion_error_dataset

Name: logion_error_dataset
Creator: 普林斯顿大学，海德堡大学，麻省理工学院
Published: 2024-10-15 04:30:54
License: 暂无描述

arXiv2024-10-15 更新2024-10-17 收录

下载链接：

https://github.com/brooksca3/logion_error_dataset

下载链接

链接失效反馈

官方服务：

资源简介：

logion_error_dataset是由普林斯顿大学、海德堡大学和麻省理工学院的研究团队创建的，专门用于检测古希腊文本中的真实错误。该数据集包含763条经过领域专家标注的错误实例，涵盖抄写、印刷和数字化过程中引入的错误。数据集的创建过程包括使用BERT条件概率指标对1000个单词进行采样，并由领域专家进行标注。该数据集主要用于评估和开发更有效的错误检测算法，以帮助学者恢复古希腊文本的原始内容。

提供机构：

普林斯顿大学，海德堡大学，麻省理工学院

创建时间：

2024-10-15

原始信息汇总

中世纪希腊语错误标注数据集

数据集概述

该数据集用于论文《中世纪希腊语错误标注数据集及检测基线》，旨在通过机器学习方法加速发现中世纪文本中的真实错误。

数据文件

文件位置: dataset_files 目录
文件列表:
- errors_split_1.json
- errors_split_5.json
- random_assumed_true_negatives.json

文件说明

errors_split_1.json 和 errors_split_5.json: 包含500行字典，分别对应Michael Psellos作品的第1部分和第5部分。
random_assumed_true_negatives.json: 包含从非标记词中随机选择的词，假定为无错误。

数据结构

每个字典包含以下键：

Transmitted Word: 传输文本中的词。
Word Index in Text: 词在 text.split() 数组中的索引。
Model-Suggested Alternative: 模型建议的替代词。
Label: 领域专家的标签，指示候选错误的性质。
Notes: 领域专家的附加注释，提供上下文或进一步的细节。
Text: 包含传输词的周围文本片段。

标签说明

GOOD FLAG: 领域专家识别出传输文本中的真实错误。
BAD: 标记的词不是真实错误。
PLAUSIBLE FLAG: 标记似乎合理，但需要进一步工作确认。
UNCERTAIN: 需要进一步工作以确定标记是否为真实错误。
BAD DATA: 错误源于作者数据组装、清理或标准化的问题。
EDITORIAL: 标记的问题不是文本问题，而是不同编辑决策（如标点或间距）可接受的情况。

搜集汇总

数据集介绍

构建方式

该数据集的构建基于对中世纪希腊文本中真实错误的识别与标注。研究团队利用BERT条件概率生成的指标，筛选出1000个最可能包含错误的单词，随后由领域专家进行标注，确定这些单词是否为错误。这一过程不仅涵盖了手稿抄写、印刷和数字化过程中引入的错误，还特别关注了那些因逻辑合理性而长期未被发现的隐秘错误。

特点

logion_error_dataset的显著特点在于其真实性和复杂性。该数据集包含了中世纪希腊文本中真实积累的错误，而非人工生成的错误，这使得其成为评估错误检测方法的宝贵资源。此外，数据集中的错误类型多样，包括抄写错误、印刷错误和数字化错误，其中抄写错误的检测尤为困难，因为这些错误往往具有逻辑上的合理性。

使用方法

该数据集可用于开发和评估中世纪希腊文本错误检测算法。研究者可以通过使用该数据集训练和测试模型，以提高其在真实文本中的错误检测能力。具体使用方法包括但不限于：利用数据集进行监督学习，训练模型识别不同类型的错误；通过交叉验证评估模型的性能；以及探索无监督学习方法，如基于BERT的条件概率评分和ELECTRA判别器评分，以发现新的错误检测策略。

背景与挑战

背景概述

在古代文本传承过程中，错误不可避免地积累。这些错误因其隐蔽性而难以识别，有些甚至未被发现地流传了数百年。尽管先前的工作在人工生成的错误上评估了错误检测方法，但我们首次引入了一个包含中世纪希腊语真实错误的数据集，使错误检测方法能够在真正积累的错误上进行评估。该数据集的创建利用了BERT条件性指标，从1000个更有可能包含错误的单词中进行采样，并由领域专家进行标注。通过这种方法，我们提出并评估了新的错误检测方法，发现基于判别器的检测器在分类真实错误方面比其他方法提高了5%的真阳性率。此外，我们还观察到，抄写错误比印刷或数字化错误更难检测。

当前挑战

该数据集面临的挑战包括：1) 解决领域问题，即在古代和中世纪文本中检测错误；2) 构建过程中遇到的挑战，如错误的高隐蔽性和领域专家标注的高成本。此外，抄写错误因其逻辑上的合理性而更难被检测，这使得构建一个高质量的错误标注数据集变得尤为困难。数据集的创建不仅需要高效的机器学习方法，还需要大量领域专家的参与和时间投入，以确保标注的准确性和可靠性。

常用场景

经典使用场景

在古代文本的传承过程中，错误不可避免地积累。这些错误由于其隐蔽性，往往难以识别。logion_error_dataset 数据集首次提供了真实古代希腊文本中的错误标注，使得错误检测方法能够在实际积累的错误上进行评估。通过使用BERT条件概率指标，该数据集从1000个更可能包含错误的单词中进行采样，并由领域专家进行标注，从而为错误检测方法提供了一个真实的基准。

实际应用

在实际应用中，logion_error_dataset 数据集为古代文本的数字化和修复提供了强有力的工具。通过训练和评估错误检测模型，研究人员可以更高效地识别和纠正古代文本中的错误，从而提高数字化文本的准确性和可靠性。这对于历史学、语言学和文化遗产保护等领域具有重要价值，有助于更好地保存和传承人类文化遗产。

衍生相关工作

logion_error_dataset 数据集的发布催生了一系列相关研究工作。例如，基于该数据集，研究者提出了新的错误检测方法，如受蛋白质工程启发的伪对数似然比（PLLR）和使用ELECTRA判别器的检测方法。此外，该数据集还推动了对古代语言模型的进一步研究，特别是在预训练和微调策略上的探索。这些工作不仅提升了错误检测的准确性，还为古代文本的自动化修复开辟了新的研究方向。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集