chentong00/propositionizer-wiki-data

Name: chentong00/propositionizer-wiki-data
Creator: chentong00
Published: 2023-12-11 21:51:06
License: 暂无描述

Hugging Face2023-12-11 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/chentong00/propositionizer-wiki-data

下载链接

链接失效反馈

官方服务：

资源简介：

--- license: apache-2.0 task_categories: - text2text-generation size_categories: - 10K<n<100K --- ## Dataset Summary This is the training data of the model `Propositionizer-wiki`. We prompt GPT-4 to decompose a Wikipedia paragraph into a list of propositions. We propose this training data to explore the concept of propositions as retrieval units. The propositions are defined as follows: 1. Each proposition should correspond to a distinct piece of meaning in the text, where the composition of all propositions would represent the semantics of the entire text. 2. A proposition should be *minimal*, i.e. it cannot be further split into separate propositions. 3. A proposition should be *contextualized and self-contained* ([Choi et al. 2021](https://aclanthology.org/2021.tacl-1.27/)). A proposition should include all the necessary context from the text (e.g. coreference) to interpret its meaning. Check out more details in the paper. ## Dataset Structure Here we provide details about the structure of the dataset. * `sources` represents a Wikipedia paragraph. It is always in the format of "Title: {title}. Section: {section}. {content}". The title will not be empty, but the section can be empty. * `targets` are a list of propositions in a JSON-formatted string. Example: ``` { "sources": "Title: Leaning Tower of Pisa. Section: . Prior to restoration work performed between 1990 and 2001, the tower leaned at an angle of 5.5 degrees, but the tower now leans at about 3.99 degrees. This means the top of the Leaning Tower of Pisa is displaced horizontally 3.9 meters (12 ft 10 in) from the center." "targets": "[\"Prior to restoration work performed between 1990 and 2001, the Leaning Tower of Pisa leaned at an angle of 5.5 degrees.\", \"The Leaning Tower of Pisa now leans at about 3.99 degrees.\", \"The top of the Leaning Tower of Pisa is displaced horizontally 3.9 meters (12 ft 10 in) from the center.\"]" } ``` ## Citation ``` ```

提供机构：

chentong00

原始信息汇总

数据集概述

该数据集是模型Propositionizer-wiki的训练数据，用于探索将命题作为检索单元的概念。数据集通过提示GPT-4将维基百科段落分解为一系列命题。命题的定义如下：

每个命题应对应文本中一个独立的意义片段，所有命题的组合应代表整个文本的语义。
命题应是最小的，即不能再进一步分割为独立的命题。
命题应是情境化且自包含的，应包含文本中解释其意义所需的所有必要情境（例如指代）。

数据集结构

数据集结构如下：

sources表示一个维基百科段落，格式为"Title: {title}. Section: {section}. {content}"。标题不会为空，但章节可以为空。
targets是一个JSON格式的字符串，表示一系列命题。

示例： json { "sources": "Title: Leaning Tower of Pisa. Section: . Prior to restoration work performed between 1990 and 2001, the tower leaned at an angle of 5.5 degrees, but the tower now leans at about 3.99 degrees. This means the top of the Leaning Tower of Pisa is displaced horizontally 3.9 meters (12 ft 10 in) from the center.", "targets": "["Prior to restoration work performed between 1990 and 2001, the Leaning Tower of Pisa leaned at an angle of 5.5 degrees.", "The Leaning Tower of Pisa now leans at about 3.99 degrees.", "The top of the Leaning Tower of Pisa is displaced horizontally 3.9 meters (12 ft 10 in) from the center."]" }

搜集汇总

数据集介绍

构建方式

该数据集由chentong00团队构建，旨在探索命题作为检索单元的概念。研究者利用GPT-4模型，将维基百科段落分解为一系列命题。每个命题被定义为文本中一个独立的意义单元，所有命题的组合应能完整表达整个段落的语义。构建过程中，命题需满足三项准则：其一，每个命题必须对应文本中一个独特的意义片段；其二，命题应具有最小性，即不可进一步拆分为更小的独立命题；其三，命题需具备语境化与自包含性，确保包含理解其含义所需的所有上下文信息，如指代关系。数据来源为维基百科段落，格式统一为“Title: {title}. Section: {section}. {content}”，标题必填而章节可为空。目标输出为JSON格式的命题列表，例如将比萨斜塔段落分解为三个独立命题。

特点

该数据集的核心特点在于其命题定义的严谨性与结构化设计。每个命题均严格遵循最小性与自包含性原则，确保分解后的命题既能独立表达明确含义，又不会丢失原文的语境信息。数据集规模介于1万至10万条之间，属于中等规模，适用于微调文本生成模型。数据格式采用统一的“来源-目标”配对结构，来源部分包含标题与章节信息，目标部分以JSON字符串存储命题列表，便于解析与处理。此外，数据集覆盖维基百科的多样化主题，命题分解过程由GPT-4驱动，保证了分解质量与语义准确性。这种设计使得数据集特别适用于检索增强生成、信息抽取与文本摘要等任务，为命题级检索提供了高质量的训练基础。

使用方法

该数据集主要面向文本到文本生成任务，尤其适用于训练模型将段落分解为命题。使用时，可直接加载JSON格式的数据，其中“sources”字段包含维基百科段落，“targets”字段为命题列表。研究者可基于此数据微调序列到序列模型，如T5或BART，以学习命题分解能力。具体应用场景包括构建命题级检索系统，将文档拆分为细粒度命题以提升检索精度；或用于生成自包含的文本片段，增强下游任务中的上下文理解。数据集的Apache-2.0许可证允许自由使用与修改，但建议引用相关论文以尊重原始工作。使用时需注意命题定义的三项准则，确保模型输出符合最小性与自包含性要求。

背景与挑战

背景概述

在自然语言处理领域，如何高效地表示和检索文本中的语义单元一直是核心研究问题。细粒度命题分解（proposition decomposition）作为一种新兴方法，旨在将复杂文本拆解为最小、自包含且上下文完备的语义片段，从而提升信息检索与文本生成的精确性。2023年，由研究团队创建的chentong00/propositionizer-wiki-data数据集应运而生，该数据集基于维基百科段落，利用GPT-4模型将原始文本自动分解为一系列命题。其核心研究问题在于探索命题作为检索单元的可行性，通过定义命题的独立性、最小性和上下文自包含性，为后续的文本理解与生成任务提供了高质量的监督训练数据。该数据集的出现，推动了命题级语义表示在知识密集型任务中的应用，对改进检索增强生成（RAG）系统的性能具有重要影响力。

当前挑战

该数据集面临的首要挑战在于领域问题的复杂性：自然语言中的语义边界往往模糊不清，如何确保自动分解出的命题既覆盖完整语义又保持最小粒度，是当前文本理解中的难点。构建过程中，依赖GPT-4进行命题分解引入了模型偏差，不同提示词或温度参数可能导致结果不一致，且缺乏人工标注的黄金标准进行质量验证。此外，维基百科语料的多样性使得命题在跨领域、跨语言场景下的泛化能力受限，例如科技类文本中的长句拆分与文学类文本的隐含义表达难以统一处理。数据规模仅含数万样本，也制约了模型对罕见语义模式的捕捉能力，未来需探索更高效的半自动标注策略与多源数据融合方法以提升鲁棒性。

常用场景

经典使用场景

在自然语言处理与信息检索的交叉领域中，命题化（Propositionization）作为一种细粒度语义单元抽取技术，正逐渐成为知识表示与推理的核心范式。该数据集由GPT-4模型对维基百科段落进行命题分解生成，旨在将复杂文本转化为原子化、自包含且上下文完备的命题列表。其经典使用场景聚焦于检索增强生成（RAG）系统中的检索单元优化，通过将传统文档级或段落级检索降维至命题级，显著提升信息匹配的精准度与语义一致性，为下游问答、摘要生成等任务提供更可靠的语义基元。

实际应用

在实际应用中，该数据集为知识密集型企业构建智能问答系统提供了基础设施。例如，在法律文书分析场景中，命题化技术可将冗长的判决书拆解为独立的事实陈述与法律条款，辅助律师快速定位关键论据；在医疗文献综述中，命题级检索能够精准匹配临床试验结论，避免文献综述中的语义偏差。此外，该数据集还可赋能教育领域的自适应学习系统，通过将教材内容分解为最小知识单元，实现个性化知识点推送，显著提升学习效率。

衍生相关工作

该数据集催生了一系列具有影响力的后续工作。在方法层面，研究者基于此数据训练了专用命题化模型Propositionizer-wiki，实现了从GPT-4监督数据到轻量化开源模型的迁移；在理论层面，后续工作进一步探讨了命题嵌入表示与多语言跨模态命题对齐问题，例如将命题化框架扩展至图像文本联合表示。此外，该数据集还启发了检索增强生成中的命题级索引结构设计，推动了如Proposition-Indexed RAG等新型检索范式的诞生，为可解释人工智能与知识推理的融合开辟了新路径。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集