OpenPI Dataset

github2024-04-06 更新2024-05-31 收录

下载链接：

https://github.com/allenai/openpi-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

OpenPI数据集用于跟踪开放域程序文本中的实体，包含四个JSON格式的文件，分别记录了问题、答案及其元数据。

The OpenPI Dataset is designed for entity tracking in open-domain procedural texts. It contains four JSON-formatted files that respectively record questions, answers and their metadata.

创建时间：

2020-10-27

原始信息汇总

OpenPI: Open-Domain Procedural Inference

数据集

OpenPI数据集文件以JSON格式提供，位于openpi-dataset/data/gold/目录下。包含以下四个文件：

id_question.jsonl: 每行是一个包含id、输入句子和其过去句子的JSON对象，即"x"。
id_question_metadata.jsonl: 与问题对应的元数据，如主题。每行是一个包含id和元数据的JSON对象。
id_answers_metadata.jsonl: 每行是一个包含id和答案列表的JSON对象，即"y"。
id_answers.jsonl: 与答案对应的元数据，如实体、属性、之前值、之后值。每行是一个包含id和元数据的JSON对象。

训练

可以通过修改脚本中的超参数来训练模型： sh sh scripts/training_bash.sh

运行预测

对单个文件进行预测： sh python src/model/generation.py --model_path /path/to/trained_model --test_input_file /path/to/input_file --unformatted_outpath /path/to/store/unformatted_predictions --formatted_outpath /path/to/store/formatted/predictions --max_len max_len_say_200

对多个文件进行预测： sh sh scripts/predictions_bash.sh

运行评估

对单个文件进行评估： sh python eval/simple_eval.py -g data/gold/test/id_answers.jsonl -p /path/to/formatted/predictions --quiet

对多个文件进行评估： sh sh scripts/evaluations_bash.sh

超参数

为了匹配论文中发布的结果，请使用以下超参数： https://github.com/allenai/openpi-dataset/blob/main/hyperparams.md

引用

如果在工作中使用此数据集，请引用：

@inproceedings{tandon-etal-2020-dataset, title = "A Dataset for Tracking Entities in Open Domain Procedural Text", author = "Tandon, Niket and Sakaguchi, Keisuke and Dalvi, Bhavana and Rajagopal, Dheeraj and Clark, Peter and Guerquin, Michal and Richardson, Kyle and Hovy, Eduard", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", month = nov, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.520", doi = "10.18653/v1/2020.emnlp-main.520", pages = "6408--6417" }

搜集汇总

数据集介绍

构建方式

OpenPI数据集的构建基于开放领域的程序性文本，旨在追踪实体在文本中的变化。数据集以JSON格式存储，包含四个主要文件：`id_question.jsonl`、`id_question_metadata.jsonl`、`id_answers_metadata.jsonl`和`id_answers.jsonl`。这些文件分别记录了输入句子及其上下文、问题的元数据、答案列表以及答案的元数据。通过这种方式，数据集能够捕捉实体在程序性文本中的状态变化，为模型训练提供了丰富的上下文信息。

特点

OpenPI数据集的特点在于其开放领域的广泛适用性和对实体状态变化的精细标注。数据集涵盖了多种主题，每个问题都伴随着详细的元数据，包括实体、属性、变化前后的值等信息。这种结构使得数据集不仅适用于实体追踪任务，还能支持更复杂的推理任务。此外，数据集的JSON格式设计便于数据处理和模型集成，为研究者提供了灵活的使用方式。

使用方法

使用OpenPI数据集时，研究者可以通过提供的脚本进行模型训练、预测和评估。训练过程中，用户可以根据需求调整超参数，并通过`training_bash.sh`脚本启动训练。预测阶段，用户可以使用`generation.py`脚本对单个文件进行预测，或通过`predictions_bash.sh`脚本处理多个文件。评估阶段，`simple_eval.py`脚本可用于对比预测结果与标准答案，生成评估报告。数据集的使用流程清晰，便于快速上手和集成到现有研究框架中。

背景与挑战

背景概述

OpenPI数据集由Allen Institute for AI的研究团队于2020年发布，旨在解决开放领域程序性文本中的实体追踪问题。该数据集的核心研究问题在于如何从开放领域的文本中提取并追踪实体及其属性的变化，这在自然语言处理领域具有重要意义。OpenPI的发布为研究者提供了一个标准化的基准，推动了程序性文本理解与生成的研究进展。该数据集在EMNLP 2020会议上首次亮相，并迅速成为相关领域的重要资源，为后续研究提供了丰富的数据支持。

当前挑战

OpenPI数据集在解决开放领域程序性文本中的实体追踪问题时，面临多重挑战。首先，开放领域的文本具有高度的多样性和复杂性，实体及其属性的变化往往隐含在非结构化的叙述中，难以准确提取。其次，数据集的构建过程需要大量的人工标注，以确保实体追踪的准确性和一致性，这对标注者的专业知识和耐心提出了较高要求。此外，模型在处理长文本时，如何有效捕捉上下文信息并保持实体追踪的连贯性，也是一个亟待解决的技术难题。这些挑战不仅考验了数据集的构建质量，也对后续模型的训练与优化提出了更高的要求。

常用场景

经典使用场景

OpenPI数据集在自然语言处理领域中被广泛用于追踪开放域过程性文本中的实体变化。通过提供详细的输入句子及其上下文，以及对应的答案和元数据，该数据集为研究者提供了一个强大的工具，用于训练和评估模型在处理复杂文本中的实体状态变化的能力。

实际应用

在实际应用中，OpenPI数据集被用于开发智能助手、自动化文档处理系统以及知识图谱构建工具。通过利用该数据集训练的模型，能够自动识别和理解文本中的实体状态变化，从而提高系统在处理复杂文本任务中的准确性和效率。

衍生相关工作

基于OpenPI数据集，研究者们开发了多种先进的模型和方法，如基于Transformer的实体追踪模型和状态预测算法。这些工作不仅提升了模型在开放域文本中的表现，还为后续研究提供了宝贵的参考和基础，推动了自然语言处理技术在实体追踪领域的进一步发展。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集