mireiaplalis/processed_cadec

Name: mireiaplalis/processed_cadec
Creator: mireiaplalis
Published: 2023-12-08 10:38:08
License: 暂无描述

Hugging Face2023-12-08 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mireiaplalis/processed_cadec

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集主要用于命名实体识别任务，包含四个字段：id、tokens、ner_tags和info。其中，ner_tags字段用于标注文本中的实体类别，包括地址（ADR）、药物（Drug）、疾病（Disease）、症状（Symptom）和发现（Finding）等。数据集分为训练集、测试集和验证集，分别包含1000、125和125个样本。

This dataset is primarily intended for named entity recognition (NER) tasks, and includes four fields: id, tokens, ner_tags, and info. The ner_tags field is used to annotate entity categories in the text, covering address (ADR), Drug, Disease, Symptom, Finding, and other categories. The dataset is split into training, test, and validation sets, which contain 1000, 125, and 125 samples respectively.

提供机构：

mireiaplalis

原始信息汇总

数据集信息

特征

id: 数据类型为字符串。
tokens: 序列类型，数据类型为字符串。
ner_tags: 序列类型，包含类别标签，标签名称如下：
- 0: O
- 1: B-ADR
- 2: I-ADR
- 3: B-Drug
- 4: I-Drug
- 5: B-Disease
- 6: I-Disease
- 7: B-Symptom
- 8: I-Symptom
- 9: B-Finding
- 10: I-Finding
info: 序列类型，数据类型为字符串。

数据分割

train: 包含1000个样本，大小为2118471.2字节。
test: 包含125个样本，大小为264808.9字节。
validation: 包含125个样本，大小为264808.9字节。

数据集大小

下载大小: 444751字节。
数据集大小: 2648089.0字节。

配置

default: 数据文件路径如下：
- train: data/train-*
- test: data/test-*
- validation: data/validation-*

搜集汇总

数据集介绍

构建方式

在药物安全监测领域，高质量标注数据对于训练精准的命名实体识别模型至关重要。该数据集基于CADEC原始语料库构建，通过系统化的预处理流程，将药物不良反应相关的自由文本转化为结构化标注数据。构建过程中，专家依据医学知识体系对文本中的药物、疾病、症状等实体进行细粒度标注，采用BIO标注方案区分实体边界，确保了标注的一致性与专业性。最终形成包含训练集、验证集和测试集的标准化数据集，为后续模型开发奠定坚实基础。

特点

该数据集在药物安全文本挖掘领域展现出鲜明的专业特性。其标注体系涵盖药物不良反应相关的五类核心实体，包括药物、疾病、症状、发现及不良反应本身，并采用BIO序列标注格式精确界定实体边界。数据规模方面，提供1250条标注样本，划分为训练、验证与测试子集，保障了模型评估的可靠性。每条样本均包含原始词序列、标注标签及辅助信息字段，结构清晰完整，特别适用于序列标注任务的模型训练与评估。

使用方法

在自然语言处理技术应用于药物安全监测的研究中，该数据集可直接用于训练命名实体识别模型。研究人员可通过加载标准化的训练集与验证集，构建基于BERT、BiLSTM-CRF等架构的序列标注模型，学习从自由文本中提取药物相关实体。模型评估阶段，使用独立测试集衡量实体识别的精确率、召回率等指标。数据集的标准化格式确保了与主流深度学习框架的兼容性，支持端到端的模型开发流程，助力药物安全文本分析技术的进步。

背景与挑战

背景概述

在生物医学信息抽取领域，药物不良反应（ADR）的自动识别是保障用药安全的关键技术。processed_cadec数据集源于CADEC（CSIRO Adverse Drug Event Corpus）原始语料，由澳大利亚联邦科学与工业研究组织（CSIRO）的研究团队于2015年构建并发布。该数据集聚焦于从患者论坛文本中抽取药物、疾病、症状、发现及不良反应等多类实体，旨在通过自然语言处理技术，自动化监测真实世界中的药物安全信号。其标注体系采用经典的BIO序列标注格式，涵盖了丰富的临床实体类型，为药物警戒和健康信息学领域提供了重要的研究资源，推动了基于用户生成内容的药物安全分析的发展。

当前挑战

该数据集致力于解决从非结构化患者叙述文本中抽取药物相关实体的挑战，其核心难点在于医学实体边界的模糊性、口语化表达的同义词多样性，以及不良反应描述中隐含的语义关系识别。在构建过程中，研究人员面临的主要挑战包括：论坛文本中存在的大量拼写错误、非标准缩写和语法不规范现象，增加了标注的一致性与准确性难度；同时，医学实体类别如“症状”与“发现”之间的细微区别，要求标注者具备专业的医学知识背景，导致标注成本高昂且质量控制复杂。这些因素共同构成了该数据集在应用与扩展中的关键瓶颈。

常用场景

经典使用场景

在药物安全与不良反应监测领域，该数据集通过标注药物、疾病、症状等实体，为命名实体识别任务提供了标准化的训练与评估资源。研究者利用其精细的标签体系，能够构建模型以自动提取医疗文本中的关键信息，从而支持药物警戒系统的自动化处理。

解决学术问题

该数据集有效解决了医疗自然语言处理中实体边界模糊、术语多样化的挑战，为药物不良反应识别、疾病关联分析等研究提供了基准数据。其意义在于推动了医疗信息抽取技术的标准化，促进了跨机构研究的可重复性，对提升公共卫生监测效率具有深远影响。

衍生相关工作

基于该数据集，衍生出多项经典工作，如结合双向长短期记忆网络与条件随机场的混合模型，用于提升实体识别精度；以及迁移学习框架，将标注知识迁移至低资源医疗语言任务。这些研究进一步拓展了药物安全领域的自然语言处理应用边界。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集