PropSegmEnt

github2022-12-21 更新2024-05-31 收录

下载链接：

https://github.com/google-research-datasets/PropSegmEnt

下载链接

链接失效反馈

官方服务：

资源简介：

PropSegmEnt是一个标注数据集，用于将英文文本分割成命题，并识别命题级蕴含关系，即判断相关文档是否蕴含每个命题、与之矛盾或无关。数据集包含来自新闻和维基百科领域的紧密相关文档集群。

PropSegmEnt is an annotated dataset designed for segmenting English texts into propositions and identifying proposition-level entailment relations, which involves determining whether the related documents entail, contradict, or are irrelevant to each proposition. The dataset comprises closely related document clusters from the domains of news and Wikipedia.

创建时间：

2022-12-21

原始信息汇总

数据集概述

名称: PropSegmEnt

目的: 用于将英文文本分割成命题，并识别命题级别的蕴含关系，即判断不同相关文档是否蕴含每个命题、与之矛盾或两者皆非。

数据来源:

NewSHead: 新闻领域的文档集群数据集。
Wikipedia Translated Clusters: 来自维基百科的文档集群数据集，包含同一主题的不同语言机器翻译成英文的文章。

数据结构:

文档集群: 包含最多三个相关主题的文档。
- Wikipedia Translated Clusters: 提供完整文本及句子、词元分解。
- NewSHead: 提供文档获取的URL和时间戳，文档文本以掩码形式提供。

文件结构: 提供3-way dev/train/test分割，每个基础语料库的数据分别以JSON文件形式提供。

数据字典

`DocumentCluster` JSON

source_dataset: 数据集来源标识。
cluster_id: 集群唯一标识。
documents: 文档列表，每个文档包含ID、文本和句子列表。
sentences: 句子列表，每个句子包含文本和词元列表。

`DocumentClusterRetrievalInformation` JSON

source_dataset: 数据集来源标识。
cluster_id: 集群唯一标识。
documents: 文档列表，每个文档包含ID、原始URL、URL爬取时间戳和句子列表。
sentences: 句子列表，每个句子包含掩码文本和词元列表。

`PropositionSegmentation` JSON

sentence_id: 句子唯一标识。
segmentation_responses: 分割响应列表，每个响应包含是否为非信息性、是否理解句子及命题列表。

`PropositionEntailment` JSON

cluster_id: 集群唯一标识。
premise_document_id: 前提文档ID。
hypothesis_proposition: 假设命题信息。
entailment_responses: 蕴含响应列表，每个响应包含理解情况和蕴含状态。

蕴含关系

对于某些文档集群内的文档对，提供评判者对蕴含关系的标注，描述一个文档作为前提与另一个文档中所有句子中的命题作为假设之间的关系。

搜集汇总

数据集介绍

构建方式

PropSegmEnt数据集的构建基于两个主要来源：NewSHead新闻数据集和Wikipedia Translated Clusters数据集。通过从这两个数据集中提取主题相关的文档集群，研究人员对文档进行了命题级别的分割和蕴含关系标注。具体而言，文档被分解为句子和词汇，并由标注者对每个句子进行命题分割，同时标注不同文档之间的命题蕴含关系。数据集以JSON格式存储，包含详细的文档、句子和词汇信息，确保数据的结构化和可追溯性。

使用方法

PropSegmEnt数据集的使用主要围绕其JSON格式的数据结构展开。用户可以通过解析JSON文件获取文档集群、句子、词汇以及命题分割和蕴含关系的详细信息。对于新闻文档，数据集提供了URL和时间戳，用户可通过重新爬取获取完整文本。对于Wikipedia文档，数据集直接提供了完整的文本和标注信息。研究人员可以利用这些数据进行命题分割模型的训练与评估，或用于跨文档蕴含关系的识别与分析。

背景与挑战

背景概述

PropSegmEnt数据集由Google Research团队于近年推出，旨在解决自然语言处理领域中的命题分割与蕴含关系识别问题。该数据集基于两个已有的数据集——NewSHead和Wikipedia Translated Clusters，分别从新闻和维基百科领域提取文档，并对其进行命题级别的标注。通过将文档分解为命题，并识别不同文档之间的蕴含关系，PropSegmEnt为自然语言理解任务提供了重要的数据支持。该数据集的构建不仅推动了文本理解技术的发展，还为跨文档信息抽取和推理任务提供了新的研究视角。

当前挑战

PropSegmEnt数据集在构建和应用过程中面临多重挑战。首先，命题分割任务要求对文本进行精细的语义分解，这需要标注者具备较高的语言理解能力，且标注过程容易受到主观判断的影响。其次，蕴含关系的识别依赖于文档间的语义对齐，而不同文档的表达方式差异较大，增加了标注和模型训练的难度。此外，数据集的构建依赖于外部数据源（如新闻文章和维基百科），文档的时效性和可获取性可能影响数据的完整性和一致性。这些挑战不仅体现在数据标注的复杂性上，也对模型的泛化能力提出了更高要求。

常用场景

经典使用场景

PropSegmEnt数据集在自然语言处理领域中被广泛用于命题级别的文本分割和蕴含关系识别。通过将英文文本分割为独立的命题，并识别不同文档之间的命题级蕴含关系，该数据集为研究文本理解和推理提供了重要的实验基础。其经典使用场景包括文本对齐、信息抽取以及跨文档的语义关系分析。

解决学术问题

PropSegmEnt数据集解决了自然语言处理中命题分割和蕴含关系识别的关键问题。传统方法难以精确分割文本中的命题，且缺乏对跨文档语义关系的系统标注。该数据集通过提供详细的命题分割和蕴含关系标注，为研究文本语义理解、推理模型以及跨文档信息整合提供了高质量的数据支持，推动了相关领域的研究进展。

实际应用

在实际应用中，PropSegmEnt数据集被用于构建智能问答系统、自动摘要生成以及跨语言信息检索等任务。例如，在智能问答系统中，通过分析命题之间的蕴含关系，系统可以更准确地回答用户问题；在跨语言信息检索中，该数据集帮助模型理解不同语言文档之间的语义关联，从而提高检索的准确性和效率。

数据集最近研究

PropSegmEnt

数据集概述

数据字典

DocumentCluster JSON

DocumentClusterRetrievalInformation JSON

PropositionSegmentation JSON

PropositionEntailment JSON

蕴含关系

`DocumentCluster` JSON

`DocumentClusterRetrievalInformation` JSON

`PropositionSegmentation` JSON

`PropositionEntailment` JSON