WLP-Dataset

github2023-07-18 更新2024-05-31 收录

下载链接：

https://github.com/chaitanya2334/WLP-Dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集包含622个湿实验室协议，每个协议都注释了动作、实体和关系，详细记录在每个句子中。数据集的详细描述可以在提供的论文中找到。

This dataset comprises 622 wet lab protocols, each annotated with actions, entities, and relationships, meticulously documented within each sentence. Detailed descriptions of the dataset can be found in the provided paper.

创建时间：

2018-11-14

原始信息汇总

WLP-Dataset概述

数据集内容

包含622个湿实验室协议（wet lab protocols）。
每个协议都标注了动作（actions）、实体（entities）和关系（relations）。

数据来源

数据集通过使用protocols.io的公共API收集。

数据格式

使用standoff格式存储，类似于BioNLP Shared Task standoff格式。
每个文本文件（.txt）伴随一个对应的标注文件（.ann），通过文件命名规则关联。

文本文件

文本文件使用UTF-8编码，包含协议的原始文本。
每行代表协议的一个步骤，首行为协议名称/标题。

标注文件

标注文件包含多种类型的标注，包括实体、事件和关系。
标注遵循统一结构：每行一个标注，ID位于行首，通过TAB字符与标注内容分隔。

标注类型

T：文本绑定标注，用于实体和事件标注。
R：关系标注，定义为类型和其参数。
E：事件标注，定义为类型、事件触发器和参数。

实体标注

定义为唯一ID、类型和字符范围。

事件标注

定义为唯一ID、类型、事件触发器和参数。
事件触发器格式与实体标注相同。

关系标注

定义为唯一ID、类型和参数。

数据集访问

可通过设置brat服务器查看标注，详细安装指南见brat安装页面。

搜集汇总

数据集介绍

构建方式

WLP-Dataset的构建基于从protocols.io平台通过公共API收集的622份湿实验室协议文本。这些文本经过详细标注，涵盖了动作、实体及其在句子中的关系。标注工作采用brat工具完成，并以类似于BioNLP共享任务的standoff格式存储。每个文本文件（.txt）与对应的标注文件（.ann）通过文件名关联，标注文件中通过字符偏移量将标注与文本中的具体片段连接。

特点

WLP-Dataset的特点在于其丰富的标注层次，包括实体、事件和关系三类标注。实体标注涵盖试剂、数量等类型，事件标注以动作为核心，关系标注则描述实体或事件之间的二元关系。所有标注均以统一的格式存储，便于机器读取和处理。此外，数据集中的协议文本以UTF-8编码存储，每行代表一个实验步骤，首行为协议名称，结构清晰且易于解析。

使用方法

使用WLP-Dataset时，可通过brat工具查看和编辑标注内容。首先需搭建brat服务器，并将数据集目录放置在brat安装目录的“data”文件夹下。通过调整文件权限，用户可在支持的浏览器中访问数据集。该数据集适用于自然语言处理任务，如序列标注和关系抽取，为机器理解湿实验室协议提供了高质量的训练和测试资源。

背景与挑战

背景概述

WLP-Dataset由Chaitanya Kulkarni、Wei Xu、Alan Ritter和Raghu Machiraju等研究人员于2018年创建，旨在为湿实验室协议中的指令机器阅读提供支持。该数据集包含622个湿实验室协议，每个协议均标注了动作、实体及其关系，涵盖了从实验步骤到试剂使用的详细信息。这些数据来源于protocols.io平台，并通过其公开API收集。该数据集的发布为自然语言处理领域，特别是在生物医学文本理解方面，提供了重要的资源，推动了自动化实验流程解析和知识提取的研究。

当前挑战

WLP-Dataset在解决湿实验室协议文本的机器阅读问题时面临多重挑战。首先，湿实验室协议通常包含复杂的专业术语和多步骤操作，如何准确识别和标注这些信息是一个技术难点。其次，构建过程中需要处理大量非结构化文本，并将其转化为结构化的标注数据，这对标注的一致性和准确性提出了高要求。此外，数据集中涉及的实体和关系类型多样，如何设计合理的标注框架以覆盖所有可能的语义关系也是一大挑战。最后，数据集的扩展性和通用性仍需进一步提升，以适应更多样化的实验场景和需求。

常用场景

经典使用场景

WLP-Dataset 数据集在自然语言处理领域中被广泛应用于湿实验室协议的自动化解析和理解。该数据集通过标注实验步骤中的动作、实体及其关系，为研究者提供了一个丰富的语料库，用于训练和评估机器学习模型，特别是在序列标注和关系抽取任务中表现出色。

实际应用

在实际应用中，WLP-Dataset 被用于开发智能实验室助手系统，帮助科研人员自动化执行实验步骤。通过解析实验协议文本，系统能够自动生成实验步骤的详细指令，减少人为错误并提高实验效率。此外，该数据集还被用于开发教育工具，帮助学生学习实验操作流程。

衍生相关工作

基于 WLP-Dataset，研究者们开发了多种自然语言处理模型，如基于深度学习的序列标注模型和关系抽取模型。这些模型在生物医学文本处理领域取得了显著进展，推动了智能实验室系统的发展。此外，该数据集还激发了更多关于实验协议自动化的研究，进一步扩展了其应用范围。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集