pie/abstrct

Hugging Face2024-11-07 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/pie/abstrct

下载链接

链接失效反馈

官方服务：

资源简介：

AbstRCT数据集是一个基于MEDLINE数据库的医疗文本语料库，主要包含随机对照试验（RCT）的摘要，并标注了论证组件（如`MajorClaim`、`Claim`和`Premise`）和关系（如`Support`、`Attack`和`Partial-attack`）。这些标注旨在支持临床医生在日常任务中的信息查找和基于证据的决策推理。数据集支持多种任务，如论证挖掘、组件识别、边界检测、关系识别和链接预测。数据集的文档类型为`BratDocumentWithMergedSpans`，并且提供了文档转换器以支持其他文档类型。数据集的语言为英语，主要应用于医疗/健康领域。

提供机构：

pie

原始信息汇总

PIE Dataset Card for "abstrct"

数据集概述

AbstRCT数据集是一个关于医疗文本（即关于各种疾病的RCT摘要）的新颖语料库，来自MEDLINE数据库。这些文本被标注了论证组件（如MajorClaim、Claim和Premise）和关系（如Support、Attack和Partial-attack），以支持临床医生在信息查找和基于证据的推理中进行决策。

支持的任务和排行榜

任务: 论证挖掘、组件识别、边界检测、关系识别、链接预测
排行榜: 需要更多信息

语言

数据集中的语言是英语（医疗/健康领域）。

数据集变体

abstrct数据集有一个单一版本(default)，文档类型为BratDocumentWithMergedSpans。这与基础的brat数据集不同，后者default版本的文档类型是BratDocument。

数据模式

参见PIE-Brat Data Schema。

使用方法

python from pie_datasets import load_dataset, builders

加载默认版本

datasets = load_dataset("pie/abstrct") doc = datasets["neoplasm_train"][0] assert isinstance(doc, builders.brat.BratDocumentWithMergedSpans)

文档转换器

数据集提供以下目标文档类型的文档转换器：

pytorch_ie.documents.TextDocumentWithLabeledSpansAndBinaryRelations
- LabeledSpans，从BratDocumentWithMergedSpans的spans转换
  - 标签: MajorClaim, Claim, Premise
- BinraryRelations，从BratDocumentWithMergedSpans的relations转换
  - 标签: Support, Partial-Attack, Attack

参见文档类型定义。

数据分割

基于疾病的分割	`neoplasm`	`glaucoma`	`mixed`
文档数量	350	100	100

重要说明:

mixed_test包含20篇关于以下疾病的摘要：青光眼、肿瘤、糖尿病、高血压、肝炎。
mixed_test中的31篇摘要与neoplasm_test和glaucoma_test中的摘要重叠。

标签描述

组件

组件	数量	百分比
`MajorClaim`	129	3%
`Claim`	1282	30.2%
`Premise`	2842	66.8%

关系

关系	数量	百分比
support: `Support`	2289	87%
attack: `Partial-Attack`	275	10.4%
attack: `Attack`	69	2.6%

搜集汇总

数据集介绍

构建方式

该数据集基于MEDLINE数据库中的医疗文本构建，包括来自随机对照试验（RCT）的各种疾病的摘要。这些文本被标注了论证组件（如主要论点、论点和前提）以及关系（如支持、攻击和部分攻击），旨在支持临床医生在信息查找和基于证据的决策制定中的日常任务。数据集采用[BRAT standoff格式](https://brat.nlplab.org/standoff.html)进行标注，并通过[PyTorch-IE](https://github.com/ChristophAlt/pytorch-ie)框架进行封装，以便于使用。

使用方法

使用该数据集时，首先需要通过`pie_datasets`库加载数据集。默认情况下，数据集以`BratDocumentWithMergedSpans`类型加载。如果需要，可以使用`to_document_type`方法将文档类型转换为`pytorch_ie.documents.TextDocumentWithLabeledSpansAndBinaryRelations`。此外，数据集还提供了文档转换器和统计信息生成工具，方便用户进行数据预处理和统计分析。

背景与挑战

背景概述

在医疗保健领域，信息检索和基于证据的推理对于临床医生在决策过程中至关重要。为了支持这一过程，研究者们开发了AbstRCT数据集，这是一个由MEDLINE数据库中的随机对照试验（RCT）摘要组成的语料库，涵盖了各种疾病。该数据集的创建旨在通过标注论证成分（如主要论点、论点和前提）以及关系（如支持、攻击和部分攻击），为临床医生提供寻找信息和基于证据的推理支持。AbstRCT数据集由Mayer等人于2020年创建，并由计算语言学家背景的两位标注者进行标注，旨在推动医疗保健领域论证挖掘的应用。

当前挑战

AbstRCT数据集面临的挑战包括：1) 领域问题的解决：该数据集旨在解决医疗保健领域信息检索和基于证据的推理问题，需要模型能够准确识别论证成分和关系。2) 构建过程中的挑战：数据集构建过程中需要解决标注一致性、数据质量控制和跨疾病类型的一致性等问题。此外，数据集还面临着社会影响、偏见和其他已知局限性的挑战，需要在应用中加以考虑。

常用场景

经典使用场景

在医疗健康领域，PIE/abstrct数据集的经典应用场景是用于论证挖掘，包括组件识别、边界检测、关系识别和链接预测等任务。该数据集提供了丰富的医学文本，这些文本已被标注了论证组件（如`MajorClaim`、`Claim`和`Premise`）和关系（如`Support`、`Attack`和`Partial-attack`），旨在支持临床医生在日常任务中寻找信息和基于证据进行决策。

解决学术问题

PIE/abstrct数据集解决了医学领域中缺乏大型标注数据集的问题，该数据集为论证挖掘提供了丰富的标注数据，有助于研究人员开发和应用论证挖掘技术，从而支持临床医生进行证据收集和决策制定。此外，该数据集的发布也为其他医学领域的论证挖掘研究提供了参考和借鉴。

实际应用

PIE/abstrct数据集的实际应用场景包括辅助临床医生进行证据收集和决策制定，例如，通过自动化检测医学文本中的论证组件和关系，可以帮助临床医生快速找到支持或反驳某个医疗决策的证据，从而提高决策的准确性和效率。此外，该数据集还可以用于开发智能医疗系统，例如，自动填充证据表单、生成临床指南等。

数据集最近研究