BioDEX/BioDEX-ICSR

Name: BioDEX/BioDEX-ICSR
Creator: BioDEX
Published: 2023-05-30 15:20:25
License: 暂无描述

Hugging Face2023-05-30 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/BioDEX/BioDEX-ICSR

下载链接

链接失效反馈

官方服务：

资源简介：

--- dataset_info: features: - name: title dtype: string - name: abstract dtype: string - name: fulltext dtype: string - name: target dtype: string - name: pmid dtype: string - name: fulltext_license dtype: string - name: title_normalized dtype: string - name: issue dtype: string - name: pages dtype: string - name: journal dtype: string - name: authors dtype: string - name: pubdate dtype: string - name: doi dtype: string - name: affiliations dtype: string - name: medline_ta dtype: string - name: nlm_unique_id dtype: string - name: issn_linking dtype: string - name: country dtype: string - name: mesh_terms dtype: string - name: publication_types dtype: string - name: chemical_list dtype: string - name: keywords dtype: string - name: references dtype: string - name: delete dtype: bool - name: pmc dtype: string - name: other_id dtype: string - name: safetyreportid dtype: int64 - name: fulltext_processed dtype: string splits: - name: test num_bytes: 155748936 num_examples: 3628 - name: train num_bytes: 374859364 num_examples: 9624 - name: validation num_bytes: 96385392 num_examples: 2407 download_size: 337571954 dataset_size: 626993692 --- # Dataset Card for "BioDEX-ICSR" [More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)

提供机构：

BioDEX

原始信息汇总

数据集概述

数据集名称

BioDEX-ICSR

数据集特征

数据集包含以下特征：

title: 字符串
abstract: 字符串
fulltext: 字符串
target: 字符串
pmid: 字符串
fulltext_license: 字符串
title_normalized: 字符串
issue: 字符串
pages: 字符串
journal: 字符串
authors: 字符串
pubdate: 字符串
doi: 字符串
affiliations: 字符串
medline_ta: 字符串
nlm_unique_id: 字符串
issn_linking: 字符串
country: 字符串
mesh_terms: 字符串
publication_types: 字符串
chemical_list: 字符串
keywords: 字符串
references: 字符串
delete: 布尔值
pmc: 字符串
other_id: 字符串
safetyreportid: 整数
fulltext_processed: 字符串

数据集分割

test: 3628个样本，占用155748936字节
train: 9624个样本，占用374859364字节
validation: 2407个样本，占用96385392字节

数据集大小

下载大小: 337571954字节
数据集总大小: 626993692字节

搜集汇总

数据集介绍

构建方式

BioDEX-ICSR数据集是基于生物医学文献中药物不良事件报告构建的大规模信息抽取资源。其构建过程从PubMed和PMC数据库中系统性地采集文献全文、摘要及元数据，通过严格的规范化处理，如标题标准化、全文文本清洗，并与FDA不良事件报告系统（FAERS）中的安全报告ID进行关联映射，形成结构化的多字段数据集。数据被划分为训练集（9624例）、验证集（2407例）和测试集（3628例），确保模型评估的可靠性与泛化能力。

使用方法

BioDEX-ICSR适用于多种自然语言处理任务，包括不良事件实体识别、关系抽取以及文本分类。用户可直接通过HuggingFace Datasets库加载该数据集，利用其预定义的训练、验证和测试划分进行模型训练与评估。在具体应用中，可结合'fulltext_processed'字段进行全文级信息提取，或利用'title'和'abstract'开展摘要级分析。建议研究者根据任务需求选择合适的字段组合，并注意处理'delete'标志以过滤无效样本。

背景与挑战

背景概述

药物安全监测是公共卫生领域的重要议题，个体病例安全报告（ICSR）的自动化处理能够显著提升不良反应信号的识别效率。BioDEX-ICSR数据集由BioDEX项目团队创建，旨在从生物医学文献中提取结构化药物安全信息，涵盖标题、摘要、全文及目标标签等丰富字段。该数据集于近年发布，聚焦于将非结构化的临床文本转化为可计算的药物-事件关联，推动了自然语言处理在药物警戒中的深度应用。其构建依托于PubMed等权威数据库，研究人员通过精细标注和跨学科协作，解决了文献中安全报告实体识别与关系抽取的核心问题，为后续机器学习模型训练提供了标准化基准，对提升药物上市后安全性评估的自动化水平具有里程碑意义。

当前挑战

该数据集面临的核心挑战在于药物安全领域特有的复杂性：首先，个体病例报告中的药物不良反应描述常存在术语歧义、拼写变异及上下文依赖，导致实体边界识别困难，例如同一不良反应可能以不同医学术语或口语化表达呈现；其次，文献中安全事件的时间逻辑与剂量关联信息需要细粒度建模，传统序列标注方法难以捕捉跨句子的因果关系；在构建过程中，标注一致性受限于专家间对不良反应严重程度判定的主观差异，且从海量PubMed文献中筛选相关报告需处理噪音数据与类别不平衡问题，例如罕见不良反应样本稀缺。此外，多源文献的版权与格式差异增加了数据整合的工程难度，全文本获取与结构化清洗成为规模化扩展的瓶颈。

常用场景

经典使用场景

BioDEX-ICSR数据集作为生物医学文献中药物不良事件信息抽取的标杆资源，其经典使用场景聚焦于从海量PubMed文献中自动提取个体病例安全报告（ICSR）的结构化信息。研究者利用该数据集训练序列标注与关系抽取模型，精准识别药物、不良反应、患者人口学特征等关键实体及其语义关联，从而构建从非结构化文本到标准化安全报告的知识转换通道。该场景广泛服务于药物警戒领域的知识图谱构建与信号检测任务。

解决学术问题

该数据集系统性地回应了生物医学自然语言处理中文献级安全信息抽取的长期挑战，尤其是解决了个体病例安全报告（ICSR）要素自动识别与结构化表示的学术难题。通过提供大规模、多源标注的文献语料，BioDEX-ICSR使研究者能够摆脱传统依赖人工编码的低效模式，推动基于深度学习的端到端抽取范式。其意义在于显著降低了药物上市后安全性监测的研究门槛，为因果推断、不良反应信号挖掘等前沿方向奠定了数据基础。

实际应用

在实际应用中，BioDEX-ICSR驱动的模型可嵌入药物警戒系统，自动从每日更新的生物医学文献中提取潜在不良反应事件，辅助药企与监管机构快速识别药物安全信号。该数据集支持开发实时文献监测工具，用于药品说明书修订、风险管控计划制定以及上市后安全性评价。此外，其在临床决策支持系统中扮演关键角色，通过整合文献证据为医生提供个体化用药风险提示。

数据集最近研究