LSOIE

Name: LSOIE
Creator: LSOIE
License: 暂无描述

arXiv2025-09-30 收录

下载链接：

https://github.com/jacobsolawetz/large-scale-oie

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集是从QA-SRL 2.0转换而来的大规模OIE数据集，涵盖了维基百科和科学两个领域。它提供了以(ARG0, 关系, ARG1, …, ARGn)格式存在的n元OIE元组。该数据集的规模是下一个最大的人工标注OIE数据的20倍，并包含了n元OIE元组。其任务是开放信息抽取。

提供机构：

LSOIE

搜集汇总

数据集介绍

构建方式

LSOIE数据集的构建源于对QA-SRL 2.0数据集的系统性转换。在开放信息抽取领域，现有语料库在规模和多样性上存在显著局限，LSOIE通过创新性的转换流程突破了这一瓶颈。首先，研究者对QA-SRL中的谓词-论元标注进行答案过滤，仅保留三位标注者一致认定为有效的问答对，并选取最长不重叠的答案跨度以确保语义完整性。其次，针对论元排序问题，设计了一种基于答案跨度在源文本中自然出现顺序的启发式算法，通过统计广义问题类型在不同位置的概率分布，为每个提取槽位分配最合理的论元。这一过程最终生成了LSOIE-wiki与LSOIE-sci两个子集，分别覆盖维基百科与科学文献领域，其句子数量较此前最大的人工标注OIE数据集扩大了约20倍。

特点

LSOIE数据集的核心特点在于其空前的规模与领域多样性。该数据集包含超过70,000个句子和150,000个提取元组，是OIE2016和AW-OIE等前人工作的数倍乃至数十倍。更为突出的是，LSOIE引入了科学文献领域（LSOIE-sci），填补了OIE语料库在专业学术文本上的空白。在数据质量方面，通过严格的三方标注者一致性筛选和最长答案跨度策略，有效降低了噪声。此外，论元排序的自动化处理确保了提取结果的可读性与逻辑性，使得生成的n元组在自然语言理解任务中更具实用性。这些特性使LSOIE成为监督式OIE模型训练与评估的坚实基石。

使用方法

LSOIE数据集的使用主要围绕监督式开放信息抽取模型的训练与基准测试展开。研究者可将数据集划分为训练、开发和测试集，采用BIO序列标注框架对句子进行编码，其中谓词和论元分别对应特定标签。论文中提供了多种基线模型，包括基于双向LSTM的rnnoie、引入条件随机场的ls_oie_crf以及结合BERT的srl_bert_ls等。使用时需注意模型输出的置信度计算：非CRF模型采用标签对数概率的均值，而CRF模型则使用整个序列的对数概率。评估时，通过Viterbi解码提取最优标签序列，并以谓词匹配和论元句法头词对齐作为评价标准。LSOIE的公开代码和预训练模型为后续研究提供了便捷的复现与扩展基础。

背景与挑战

背景概述

开放信息抽取（Open Information Extraction, OIE）是自然语言处理领域的一项重要任务，旨在从非结构化文本中自动提取事实性命题，并以n元组的形式呈现。这些元组对知识库构建、文本蕴含推理和自然语言理解等下游任务具有重要价值。然而，现有OIE数据集在规模和多样性上存在显著局限。为突破这一瓶颈，Jacob Solawetz与Stefan Larson于2021年联合提出了LSOIE（Large-Scale Open Information Extraction）数据集，该数据集通过将QA-SRL 2.0语料库中的问答对转换为OIE抽取格式，最终囊括超过70,000个句子和150,000条抽取元组，规模是此前最大人工标注OIE数据集的20倍。LSOIE的发布为监督式OIE研究提供了前所未有的数据基础，极大推动了该领域的发展。

当前挑战

LSOIE数据集面临的挑战主要来自两个方面。其一，在领域问题层面，OIE任务本身具有高难度：模型需准确识别谓词与论元，并保证论元顺序的合理性。实验表明，基准模型在LSOIE-wiki测试集上的F1值仅为0.28，错误分析显示53%的精度误差源于谓词识别错误，36%的未匹配抽取源于论元拼接错误。其二，在构建过程中，将QA-SRL 2.0转换为OIE格式面临多重困难：原始数据中标注者的答案存在不一致性，需设计严格的答案过滤机制（仅保留三位标注者均标记有效的问题）；同时，原始问答对缺乏自然的论元顺序，需开发基于语料统计的论元排序启发式算法，以确保生成元组的语义连贯性。这些挑战共同塑造了LSOIE数据集的独特价值与复杂性。

常用场景

经典使用场景

在自然语言处理领域，开放信息抽取（Open Information Extraction, OIE）致力于从非结构化文本中抽取出结构化的关系元组，以服务于知识库构建、文本蕴含推理等下游任务。LSOIE数据集作为目前规模最大的人工标注OIE数据集，其核心应用场景在于为监督式OIE模型提供大规模、高质量的训练与评估基准。研究者可基于该数据集训练序列标注模型，将句子中的谓词与论元映射为连续的标签序列，从而实现对事实性命题的自动化抽取。LSOIE的规模优势使得模型能够学习到更丰富的语义模式，显著提升在跨领域文本上的泛化能力。

衍生相关工作

LSOIE数据集衍生了一系列重要的后续研究工作。在模型架构方面，研究者基于该数据集探索了结合条件随机场（CRF）的端到端标注模型（ls_oie_crf），以及融合BERT的深度编码器（srl_bert_ls），显著提升了论元排序与谓词识别的准确性。在评估方法上，LSOIE推动了更严格的元组匹配策略，要求谓词与论元的句法头匹配，克服了此前仅依赖词汇重叠的评估缺陷。此外，该数据集还催生了跨领域OIE适应性的研究，例如分析模型在LSOIE-wiki与LSOIE-sci之间的迁移表现，为构建通用OIE系统提供了实验基准。

数据集最近研究