CADEC

github2021-12-28 更新2024-05-31 收录

下载链接：

https://github.com/suhejian/CADEC-data-process

下载链接

链接失效反馈

官方服务：

资源简介：

CADEC数据集，全称CSIRO Adverse Drug Event Corpus，是一个关于患者报告的药物不良事件（ADE）的丰富注释语料库。

The CADEC dataset, fully known as the CSIRO Adverse Drug Event Corpus, is a richly annotated corpus concerning patient-reported adverse drug events (ADEs).

创建时间：

2021-12-28

原始信息汇总

CADEC数据集概述

数据集名称

全称：CSIRO Adverse Drug Event Corpus
简称：CADEC

数据集内容

主题：关于患者报告的药物不良事件（ADE）的注释语料库。
版本：CADEC.v2.zip
关注的实体类型：ADR（仅该类型包含非连续实体）

数据集结构

子目录：
- text：原文
- original：标注

数据处理流程

实体提取：
- 使用extract_annotations.py脚本，提取6318个ADR实体。
- 输出格式：document_name, entity type, start_index, end_index, mention
文本分词：
- 使用tokenization.py脚本，对文本进行分词处理。
- 输出格式：token, document_name, start index, end index
索引转换：
- 使用convert_ann_using_token_idx.py脚本，将字符级索引转换为token级索引。
- 输出格式：document name, entity type, start_index, end_index, mention
文本内联转换：
- 使用convert_text_inline.py脚本，转换文本格式。
- 输出格式：document_name, sentence, entity type | entity indexes
数据集划分：
- 使用split_train_test.py脚本，根据split文件夹中的train.id, dev.id和test.id文件划分训练集、验证集和测试集。
- id定义：文档的名称

搜集汇总

数据集介绍

构建方式

CADEC数据集的构建基于患者报告的药物不良事件（ADE），通过收集和注释相关文本数据形成。数据集包含两个主要版本，其中`CADEC.v2.zip`被选用，特别关注非连续实体类型的ADR（药物不良反应）。数据集的构建过程涉及从原始文本中提取特定类型的实体，并进行详细的标注和索引转换，以确保数据的准确性和可用性。

特点

CADEC数据集的特点在于其专注于药物不良事件的详细注释，特别是ADR实体的非连续性。数据集提供了丰富的文本和标注信息，包括原文和原始标注，使得研究者能够深入分析药物不良反应的语言表达和上下文关系。此外，数据集的结构化处理和索引转换功能，为自然语言处理任务提供了坚实的基础。

使用方法

使用CADEC数据集时，首先需将数据集下载并放置在指定目录下。通过运行一系列Python脚本，如`extract_annotations.py`和`tokenization.py`，可以从文本中提取特定类型的实体并进行分词处理。接着，使用`convert_ann_using_token_idx.py`将字符级索引转换为token级索引，最后通过`convert_text_inline.py`和`split_train_test.py`脚本进行数据格式转换和训练集、验证集、测试集的划分。这一流程确保了数据的高效利用和模型的准确训练。

背景与挑战

背景概述

CADEC数据集，全称为CSIRO Adverse Drug Event Corpus，是由澳大利亚联邦科学与工业研究组织（CSIRO）开发的一个专注于药物不良事件（ADE）的注释语料库。该数据集创建于2015年，旨在为药物安全监测和自然语言处理（NLP）研究提供高质量的标注数据。CADEC数据集的核心研究问题是通过分析患者报告的药物不良事件，帮助研究人员和医疗专业人员更好地理解药物副作用及其对患者健康的影响。该数据集在药物安全、药物警戒和医疗NLP领域具有重要的影响力，为相关研究提供了宝贵的数据资源。

当前挑战

CADEC数据集在构建和应用过程中面临多重挑战。首先，药物不良事件的识别和标注需要高度的专业知识，确保标注的准确性和一致性是一个复杂的过程。其次，患者报告的语言通常是非结构化的，包含大量的口语化表达和拼写错误，这增加了文本处理的难度。此外，药物不良事件的描述中常常包含非连续的实体，这对传统的命名实体识别（NER）模型提出了更高的要求。在数据集的构建过程中，研究人员还需要处理数据隐私和伦理问题，确保患者信息的匿名化和数据使用的合规性。这些挑战不仅影响了数据集的构建，也对后续的模型训练和评估提出了更高的要求。

常用场景

经典使用场景

CADEC数据集在药物安全监测和自然语言处理领域具有重要应用，尤其是在识别和分析患者报告的药物不良事件（ADE）方面。研究者利用该数据集训练和评估模型，以自动识别文本中的非连续实体，如药物不良反应（ADR），这对于提高药物安全监测的效率和准确性至关重要。

实际应用

在实际应用中，CADEC数据集被广泛应用于药物安全监测系统，帮助自动识别和分析患者报告中的药物不良事件。这不仅提高了药物安全监测的效率，还为药物研发和监管提供了重要的数据支持，有助于及时发现和预防潜在的药物风险。

衍生相关工作

基于CADEC数据集，研究者开发了多种先进的自然语言处理模型，如非连续实体识别模型和药物不良事件分类模型。这些模型在药物安全监测和医疗文本分析领域得到了广泛应用，推动了相关技术的发展，并为后续研究提供了坚实的基础。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集