five

OpenBoek

收藏
github2023-09-14 更新2024-05-31 收录
下载链接:
https://github.com/andreasvc/openboek
下载链接
链接失效反馈
官方服务:
资源简介:
OpenBoek是一个包含公共领域荷兰文学的数据集,具有多层语言注释。该数据集包括核心引用、解析、特征、原始文本、分词、拼写、POS标记和引用等注释,所有文本均来自Project Gutenberg,包含约103,000个标记。

OpenBoek is a dataset encompassing Dutch literature in the public domain, featuring multi-layered linguistic annotations. This dataset includes annotations such as core references, parsing, features, original texts, tokenization, spelling, POS tagging, and citations. All texts are sourced from Project Gutenberg, comprising approximately 103,000 tokens.
创建时间:
2022-10-07
原始信息汇总

数据集概述

数据集名称

  • OpenBoek

数据集内容

  • 文本类型:公共领域荷兰文学作品
  • 注释层级:多层语言学注释

授权信息

注释详情

  • coref:核心参考注释,采用CoNLL 2012格式,手动校正。
  • parses:手动校正的解析树,使用Alpino XML格式。
  • features:实体特征,包括性别和数量,以制表符分隔的文件形式提供。
  • original:原始小说文本,部分进行了手动拼写更改。
  • tokenized:句子分词,每句一行,带有前缀标识。
  • spelling:拼写规范化文本,包括自动和手动校正版本。
  • pos:手动校正的词性标签。
  • quotes:直接引语的说话者注释。

数据集构成

  • 来源:Project Gutenberg的公共领域文本
  • 类型:包括经典荷兰文本及翻译小说
  • 规模:每个片段至少10,000字,总注释数据约103,000字

引用信息

搜集汇总
数据集介绍
main_image_url
构建方式
OpenBoek数据集构建于荷兰文学的公共领域文本,主要来源于Project Gutenberg。该数据集包含了多层次的语言学注释,如共指解析、句法树、实体特征等。注释过程结合了自动化工具和人工校正,确保了数据的准确性和丰富性。特别是共指解析部分,采用了CoNLL 2012格式,并对手动校正的共指列进行了详细标注。此外,句法树部分使用了Alpino XML格式,每个句子对应一个XML文件,确保了句法结构的精确表示。
特点
OpenBoek数据集的特点在于其丰富的语言学注释和多层次的文本处理。数据集不仅包含了原始的荷兰文学文本,还提供了经过拼写标准化处理的版本,包括自动化和手动校正的拼写版本。此外,数据集还标注了实体的性别和数量特征,以及直接引语的说话者和受话者信息。这些详细的注释为研究荷兰文学的语言结构、共指关系和历史拼写变化提供了宝贵的资源。
使用方法
使用OpenBoek数据集时,研究人员可以通过下载数据集中的不同注释文件进行语言学分析。例如,共指解析文件可用于研究文本中的共指关系,句法树文件可用于分析句法结构,实体特征文件可用于研究实体的性别和数量特征。此外,数据集还提供了拼写标准化版本,便于研究历史拼写变化。研究人员可以根据需要选择不同的注释文件,结合自动化工具和手动校正结果进行深入分析。
背景与挑战
背景概述
OpenBoek数据集是一个包含荷兰文学作品的语料库,由Andreas van Cranenburgh和Gertjan van Noord于2022年创建,旨在为自然语言处理领域提供丰富的语言学注释资源。该数据集主要聚焦于荷兰文学中的共指消解、实体识别以及历史拼写规范化等核心研究问题。其语料来源于公共领域的经典荷兰文学作品及翻译小说,涵盖了超过10万词汇的注释数据。OpenBoek的发布为荷兰语的自然语言处理研究提供了重要的数据支持,尤其是在共指消解和实体特征分析方面,推动了相关领域的技术进步。
当前挑战
OpenBoek数据集在构建和应用过程中面临多重挑战。首先,共指消解和实体特征的标注需要高度精确的人工干预,尤其是在处理荷兰文学中的复杂句法和语义结构时,标注的一致性和准确性难以保证。其次,历史拼写规范化是另一大挑战,由于荷兰语的历史演变,文本中的拼写差异显著,自动化的拼写校正工具难以完全覆盖所有情况,仍需依赖人工校对。此外,数据集的规模相对较小,限制了其在深度学习模型训练中的应用效果。如何扩展数据集规模并提升标注质量,是未来研究的重要方向。
常用场景
经典使用场景
OpenBoek数据集在自然语言处理领域中被广泛用于荷兰语文学文本的分析与研究。其丰富的语言注释层,如共指消解、句法分析和实体特征标注,为研究者提供了深入探索荷兰语文学语言结构的工具。特别是在历史语言学领域,该数据集通过提供历史拼写标准化版本,帮助研究者理解荷兰语的历史演变。
衍生相关工作
基于OpenBoek数据集,研究者们开发了多种荷兰语自然语言处理工具和模型。例如,利用该数据集中的共指消解标注,研究者开发了更精确的荷兰语共指消解系统。此外,该数据集还促进了荷兰语历史拼写标准化工具的开发,为历史文本的数字化和自动化处理提供了重要支持。
数据集最近研究
最新研究方向
OpenBoek数据集作为荷兰文学领域的公共领域语料库,近年来在自然语言处理领域引起了广泛关注。其多层次的语言注释,尤其是共指消解、句法分析和实体特征标注,为研究历史文本的自动处理提供了丰富的资源。当前的研究热点集中在历史拼写标准化和共指消解技术的优化上,这些技术不仅提升了文本解析的准确性,还为跨时代的语言演变研究提供了新的视角。此外,OpenBoek的实体特征标注(如性别和数量)为文学作品中的人物关系分析提供了基础,推动了文学计算和叙事结构分析的发展。该数据集的应用不仅限于语言学领域,还扩展到了数字人文和文化遗产保护,具有重要的学术和社会价值。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作