OpenBoek

github2023-09-14 更新2024-05-31 收录

下载链接：

https://github.com/andreasvc/openboek

下载链接

链接失效反馈

官方服务：

资源简介：

OpenBoek是一个包含公共领域荷兰文学的数据集，具有多层语言注释。该数据集包括核心引用、解析、特征、原始文本、分词、拼写、POS标记和引用等注释，所有文本均来自Project Gutenberg，包含约103,000个标记。

OpenBoek is a dataset encompassing Dutch literature in the public domain, featuring multi-layered linguistic annotations. This dataset includes annotations such as core references, parsing, features, original texts, tokenization, spelling, POS tagging, and citations. All texts are sourced from Project Gutenberg, comprising approximately 103,000 tokens.

创建时间：

2022-10-07

原始信息汇总

数据集概述

数据集名称

OpenBoek

数据集内容

文本类型：公共领域荷兰文学作品
注释层级：多层语言学注释

授权信息

许可证：Creative Commons Attribution 4.0 International License

注释详情

coref：核心参考注释，采用CoNLL 2012格式，手动校正。
parses：手动校正的解析树，使用Alpino XML格式。
features：实体特征，包括性别和数量，以制表符分隔的文件形式提供。
original：原始小说文本，部分进行了手动拼写更改。
tokenized：句子分词，每句一行，带有前缀标识。
spelling：拼写规范化文本，包括自动和手动校正版本。
pos：手动校正的词性标签。
quotes：直接引语的说话者注释。

数据集构成

来源：Project Gutenberg的公共领域文本
类型：包括经典荷兰文本及翻译小说
规模：每个片段至少10,000字，总注释数据约103,000字

引用信息

参考文献：OpenBoek: A Corpus of Literary Coreference and Entities with an Exploration of Historical Spelling Normalization
引用格式： bibtex @article{vancranenburgh2022openboek, author={van Cranenburgh, Andreas and van Noord, Gertjan}, year={2022}, title={OpenBoek: A Corpus of Literary Coreference and Entities with an Exploration of Historical Spelling Normalization}, journal={Computational Linguistics in the Netherlands Journal}, volume={12}, month={Dec.}, pages={235–251}, url={https://clinjournal.org/clinj/article/view/157}, }

搜集汇总

数据集介绍

构建方式

OpenBoek数据集构建于荷兰文学的公共领域文本，主要来源于Project Gutenberg。该数据集包含了多层次的语言学注释，如共指解析、句法树、实体特征等。注释过程结合了自动化工具和人工校正，确保了数据的准确性和丰富性。特别是共指解析部分，采用了CoNLL 2012格式，并对手动校正的共指列进行了详细标注。此外，句法树部分使用了Alpino XML格式，每个句子对应一个XML文件，确保了句法结构的精确表示。

特点

OpenBoek数据集的特点在于其丰富的语言学注释和多层次的文本处理。数据集不仅包含了原始的荷兰文学文本，还提供了经过拼写标准化处理的版本，包括自动化和手动校正的拼写版本。此外，数据集还标注了实体的性别和数量特征，以及直接引语的说话者和受话者信息。这些详细的注释为研究荷兰文学的语言结构、共指关系和历史拼写变化提供了宝贵的资源。

使用方法

使用OpenBoek数据集时，研究人员可以通过下载数据集中的不同注释文件进行语言学分析。例如，共指解析文件可用于研究文本中的共指关系，句法树文件可用于分析句法结构，实体特征文件可用于研究实体的性别和数量特征。此外，数据集还提供了拼写标准化版本，便于研究历史拼写变化。研究人员可以根据需要选择不同的注释文件，结合自动化工具和手动校正结果进行深入分析。

背景与挑战

背景概述

OpenBoek数据集是一个包含荷兰文学作品的语料库，由Andreas van Cranenburgh和Gertjan van Noord于2022年创建，旨在为自然语言处理领域提供丰富的语言学注释资源。该数据集主要聚焦于荷兰文学中的共指消解、实体识别以及历史拼写规范化等核心研究问题。其语料来源于公共领域的经典荷兰文学作品及翻译小说，涵盖了超过10万词汇的注释数据。OpenBoek的发布为荷兰语的自然语言处理研究提供了重要的数据支持，尤其是在共指消解和实体特征分析方面，推动了相关领域的技术进步。

当前挑战

OpenBoek数据集在构建和应用过程中面临多重挑战。首先，共指消解和实体特征的标注需要高度精确的人工干预，尤其是在处理荷兰文学中的复杂句法和语义结构时，标注的一致性和准确性难以保证。其次，历史拼写规范化是另一大挑战，由于荷兰语的历史演变，文本中的拼写差异显著，自动化的拼写校正工具难以完全覆盖所有情况，仍需依赖人工校对。此外，数据集的规模相对较小，限制了其在深度学习模型训练中的应用效果。如何扩展数据集规模并提升标注质量，是未来研究的重要方向。

常用场景

经典使用场景

OpenBoek数据集在自然语言处理领域中被广泛用于荷兰语文学文本的分析与研究。其丰富的语言注释层，如共指消解、句法分析和实体特征标注，为研究者提供了深入探索荷兰语文学语言结构的工具。特别是在历史语言学领域，该数据集通过提供历史拼写标准化版本，帮助研究者理解荷兰语的历史演变。

衍生相关工作

基于OpenBoek数据集，研究者们开发了多种荷兰语自然语言处理工具和模型。例如，利用该数据集中的共指消解标注，研究者开发了更精确的荷兰语共指消解系统。此外，该数据集还促进了荷兰语历史拼写标准化工具的开发，为历史文本的数字化和自动化处理提供了重要支持。

数据集最近研究