Annotated Dataset of 1,000 Candidate Errors in Premodern Greek

github2024-06-21 更新2024-06-22 收录

下载链接：

https://github.com/brooksca3/error_dataset_and_baselines

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含1,000个预现代希腊语中的候选错误注释，旨在通过机器学习方法加速发现真实错误。数据集文件包括两个注释文件，每个文件包含500个字典，每个字典记录了传输文本中的单词、单词在文本中的索引、模型建议的替代词、领域专家的标签、专家的额外笔记以及周围文本的片段。

This dataset comprises 1,000 candidate error annotations in Pre-Modern Greek, designed to accelerate the identification of actual errors via machine learning methods. The dataset includes two annotation files, each containing 500 dictionaries. Each dictionary documents the word from the transmitted text, its positional index within the text, the replacement suggestion provided by the model, the domain expert’s label, supplementary notes from the expert, and a snippet of the surrounding contextual text.

创建时间：

2024-06-16

原始信息汇总

古希腊文候选错误标注数据集

数据集文件

数据集包含两个标注文件：errors1.txt 和 errors5.txt。这两个文件分别对应于Michael Psellos作品的第1部分和第5部分，每个文件包含500行分隔的字典。此外，还包含一个文件true_negatives.txt，其中包含从非标记词中随机选择的被认为是无误的词，用于评估以缓解由过度采样真实错误引起的数据分布偏移。

字典结构

每个字典包含以下键：

Transmitted Word: 传递文本中的词。
Word Index in Text: 词在text.split()数组中的索引。
Model-Suggested Alternative: 模型建议的替代词。
Label: 领域专家的标签，指示候选错误的性质。
Notes: 领域专家的附加注释，提供上下文或进一步的详细信息。
Text: 包含传递词的周围文本片段。

GOOD FLAG: 表示领域专家识别出传递文本中的真实错误。
BAD: 表示标记的词不是真实错误。
PLAUSIBLE FLAG: 表示标记似乎合理，但需要进一步工作以确定。
UNCERTAIN: 表示需要进一步工作以确定标记是否为真实错误。
BAD DATA: 表示错误源于作者在数据组装、清洗或标准化中的问题。
EDITORIAL: 表示标记的问题不是文本问题，而是编辑决策（如标点或间距）可以有不同有效选择的情况。

搜集汇总

数据集介绍

构建方式

该数据集通过对Michael Psellos的作品进行随机分割，构建了一个包含1,000个候选错误的标注数据集。具体而言，研究者将Psellos的作品分为五个部分，并从中选取了第一和第五部分进行详细标注，每个部分包含500个行分隔的词典。这些词典详细记录了每个候选错误的相关信息，包括传输文本中的词汇、词汇在文本中的索引、模型建议的替代词、领域专家的标签、附加注释以及周围文本的片段。此外，数据集还包含一个名为`random_assumed_true_negatives.json`的文件，其中包含从非标记词中随机选择的词汇，这些词汇被假定为无误，以帮助评估模型性能。

特点

该数据集的显著特点在于其详细的标注结构和多样的标签系统。每个词典不仅记录了传输文本中的词汇及其在文本中的位置，还提供了模型建议的替代词和领域专家的详细标签。标签系统包括六种不同的类别，如‘GOOD FLAG’（确认错误）、‘BAD’（非错误）、‘PLAUSIBLE FLAG’（疑似错误）等，这些标签为机器学习模型提供了丰富的训练和评估数据。此外，数据集还特别包含了随机选择的非错误词汇，以帮助模型更好地处理数据分布偏移问题。

使用方法

使用该数据集时，用户可以通过Python的json模块轻松加载数据。例如，使用以下代码可以加载`errors_split_1.json`文件： python import json filepath = 'path/to/errors_split_1.json' with open(filepath, 'r') as file: combined_reports1 = json.load(file) 加载后的数据集可以用于训练和评估机器学习模型，特别是那些旨在检测古希腊文本中错误的模型。通过分析每个词典中的详细信息，研究人员可以深入理解模型的性能，并进行相应的优化。

背景与挑战

背景概述

在古典文献学与机器学习交叉领域，Annotated Dataset of 1,000 Candidate Errors in Premodern Greek数据集应运而生，旨在通过机器学习方法加速对古希腊文本中真实错误的发现。该数据集由主要研究人员或机构创建，时间可追溯至其相关论文发表之际，即'An Annotated Dataset of Errors in Premodern Greek and Baselines for Detecting Them'。此数据集的核心研究问题聚焦于如何利用现代技术手段，对古希腊文本中的潜在错误进行高效且准确的识别与分类。其影响力在于为古典文献学研究提供了新的工具和方法，推动了该领域与人工智能技术的深度融合。

当前挑战

构建Annotated Dataset of 1,000 Candidate Errors in Premodern Greek数据集面临多重挑战。首先，古希腊文本的复杂性和历史背景要求数据标注者具备深厚的领域知识，以确保标注的准确性和权威性。其次，数据集的随机分割和部分文件的未完成状态，增加了数据处理的复杂性和不确定性。此外，模型建议的替代词与领域专家标签之间的差异，以及标注过程中可能出现的分布偏移问题，均需通过精细的数据处理和评估方法来解决。这些挑战不仅影响了数据集的质量，也对后续研究提出了更高的技术要求。

常用场景

经典使用场景

该数据集的经典使用场景主要集中在古希腊文本的错误检测与校正领域。通过机器学习方法，研究者能够利用此数据集训练模型，以识别和修正中世纪希腊文本中的潜在错误。具体而言，数据集中的标注信息，如‘Transmitted Word’、‘Model-Suggested Alternative’和‘Label’，为模型提供了丰富的训练数据，使其能够有效区分真实错误与非错误情况。

衍生相关工作

基于此数据集，研究者们已经开展了一系列相关工作，包括开发更高效的错误检测算法、优化模型训练过程以及扩展数据集的应用范围。例如，有研究尝试将此数据集与其他语言的古文本数据集结合，以提升多语言文本错误检测的通用性。此外，还有工作专注于利用深度学习技术进一步提高错误识别的准确率，为古文本研究提供了更多创新工具。

数据集最近研究