Open IE Corpus - PT (OIEC-PT)

Name: Open IE Corpus - PT (OIEC-PT)
Creator: 巴伊亚联邦大学
Published: 2025-01-21 11:08:37
License: 暂无描述

arXiv2025-01-21 更新2025-01-23 收录

下载链接：

https://hyperalgesic-combs.000webhostapp.com/corpora.zip

下载链接

链接失效反馈

官方服务：

资源简介：

Open IE Corpus - PT (OIEC-PT) 是由巴伊亚联邦大学的研究团队创建的一个高质量手动注释语料库，旨在支持葡萄牙语的开放信息抽取任务。该数据集包含300个句子，源自并行通用依赖（PUD）语料库，经过严格的注释流程和质量控制，确保数据的准确性和可靠性。数据集通过多轮注释和验证，确保了注释的一致性和高质量。该语料库的应用领域主要是自然语言处理中的信息抽取任务，旨在解决葡萄牙语在开放信息抽取领域缺乏高质量数据集的问题，支持相关方法和系统的开发与评估。

Open IE Corpus - PT (OIEC-PT) is a high-quality manually annotated corpus developed by the research team at the Federal University of Bahia, designed to support open information extraction tasks for the Portuguese language. This dataset consists of 300 sentences sourced from the Parallel Universal Dependencies (PUD) corpus, and has undergone rigorous annotation procedures and quality control to ensure its accuracy and reliability. It has gone through multiple rounds of annotation and validation to guarantee consistent and high-quality annotations. The primary application scope of this corpus lies in information extraction tasks in natural language processing, and it is intended to resolve the shortage of high-quality datasets for Portuguese within the open information extraction field, supporting the development and evaluation of related methods and systems.

提供机构：

巴伊亚联邦大学

创建时间：

2025-01-21

搜集汇总

数据集介绍

构建方式

Open IE Corpus - PT (OIEC-PT) 数据集的构建基于平行通用依存树库（Parallel Universal Dependencies, PUD），该树库包含从新闻和维基百科中提取的1000个句子，并遵循通用依存关系v2指南进行形态和句法标注。在构建过程中，研究团队从PUD中选择了100个葡萄牙语句子，并由五名具有语言学标注经验的人工标注者进行迭代标注。标注过程分为多个步骤，每个步骤中标注者的标注结果会经过其他标注者的评估，以确保标注的一致性和准确性。最终，数据集包含300个句子，分为银集和金集，银集用于校准标注指南，金集则是最终的高质量标注结果。

特点

OIEC-PT 数据集的特点在于其高质量的标注和严格的理论基础。数据集中的每个句子都经过详细的语义关系标注，标注过程基于结构化和上下文的规则，确保提取的关系具有语义一致性。此外，数据集的构建过程采用了多轮迭代的标注和评估机制，确保了标注的高一致性和低噪声。数据集还特别关注了葡萄牙语的语言特性，如代词指代和复杂句法结构，这使得该数据集在葡萄牙语的自然语言处理任务中具有较高的应用价值。

使用方法

OIEC-PT 数据集主要用于评估和开发葡萄牙语开放信息抽取（Open IE）系统。研究人员可以使用该数据集来训练和测试基于监督学习的Open IE模型，特别是那些依赖于语义关系提取的模型。数据集中的银集和金集可以分别用于模型训练和验证，确保模型在不同标注质量下的鲁棒性。此外，由于数据集基于PUD树库，研究人员还可以将其扩展到其他语言，进行跨语言的Open IE系统评估。数据集的使用方法包括加载标注文件、解析语义关系三元组，并使用这些三元组进行模型训练和评估。

背景与挑战

背景概述

Open IE Corpus - PT (OIEC-PT) 是由巴西巴伊亚联邦大学的研究团队于202X年创建的一个高质量手动标注语料库，旨在支持葡萄牙语开放信息抽取（Open IE）任务。该语料库基于并行通用依存关系（PUD）语料库，采用严格的语义理论和方法论进行标注，填补了葡萄牙语在开放信息抽取领域的数据空白。研究团队通过迭代标注过程，结合语言学理论和结构规则，确保了语料库的高质量。该语料库的发布为葡萄牙语自然语言处理领域的研究提供了重要的资源支持，推动了该领域的发展。

当前挑战

OIEC-PT 数据集的构建面临多重挑战。首先，葡萄牙语的长句结构复杂，常包含多元关系，难以简化为二元关系，这给标注过程带来了困难。其次，PUD 语料库中的形态句法标注错误影响了数据质量，研究团队不得不剔除这些错误句子以确保语料库的可靠性。此外，标注过程中对语义关系的模糊定义也导致了标注者之间的分歧，需通过反复讨论和规则细化来解决。这些挑战不仅影响了数据集的构建效率，也对后续的开放信息抽取系统的性能评估提出了更高要求。

常用场景

经典使用场景

Open IE Corpus - PT (OIEC-PT) 数据集主要用于葡萄牙语开放信息抽取（Open IE）任务的研究与评估。该数据集通过手动标注的方式，提供了高质量的语义关系提取结果，适用于开发基于监督学习的开放信息抽取系统。其经典使用场景包括训练和评估自然语言处理模型，特别是那些专注于从非结构化文本中提取结构化信息的系统。

解决学术问题

OIEC-PT 数据集解决了葡萄牙语开放信息抽取领域缺乏高质量标注数据的问题。通过提供基于语义理论的标注规则和严格的标注流程，该数据集为研究人员提供了一个可靠的基准，用于评估和改进开放信息抽取算法。此外，该数据集还支持跨语言信息抽取研究，推动了多语言自然语言处理技术的发展。

衍生相关工作

OIEC-PT 数据集的发布推动了多语言开放信息抽取领域的研究进展。基于该数据集，研究人员开发了多种跨语言信息抽取模型，如 CrossOIE 和 TabOIEC，这些模型在葡萄牙语和其他语言的信息抽取任务中表现出色。此外，该数据集还为其他低资源语言的开放信息抽取研究提供了参考，促进了多语言自然语言处理技术的均衡发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集