BioDEX/BioDEX-ICSR
收藏Hugging Face2023-05-30 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/BioDEX/BioDEX-ICSR
下载链接
链接失效反馈官方服务:
资源简介:
---
dataset_info:
features:
- name: title
dtype: string
- name: abstract
dtype: string
- name: fulltext
dtype: string
- name: target
dtype: string
- name: pmid
dtype: string
- name: fulltext_license
dtype: string
- name: title_normalized
dtype: string
- name: issue
dtype: string
- name: pages
dtype: string
- name: journal
dtype: string
- name: authors
dtype: string
- name: pubdate
dtype: string
- name: doi
dtype: string
- name: affiliations
dtype: string
- name: medline_ta
dtype: string
- name: nlm_unique_id
dtype: string
- name: issn_linking
dtype: string
- name: country
dtype: string
- name: mesh_terms
dtype: string
- name: publication_types
dtype: string
- name: chemical_list
dtype: string
- name: keywords
dtype: string
- name: references
dtype: string
- name: delete
dtype: bool
- name: pmc
dtype: string
- name: other_id
dtype: string
- name: safetyreportid
dtype: int64
- name: fulltext_processed
dtype: string
splits:
- name: test
num_bytes: 155748936
num_examples: 3628
- name: train
num_bytes: 374859364
num_examples: 9624
- name: validation
num_bytes: 96385392
num_examples: 2407
download_size: 337571954
dataset_size: 626993692
---
# Dataset Card for "BioDEX-ICSR"
[More Information needed](https://github.com/huggingface/datasets/blob/main/CONTRIBUTING.md#how-to-contribute-to-the-dataset-cards)
提供机构:
BioDEX
原始信息汇总
数据集概述
数据集名称
BioDEX-ICSR
数据集特征
数据集包含以下特征:
- title: 字符串
- abstract: 字符串
- fulltext: 字符串
- target: 字符串
- pmid: 字符串
- fulltext_license: 字符串
- title_normalized: 字符串
- issue: 字符串
- pages: 字符串
- journal: 字符串
- authors: 字符串
- pubdate: 字符串
- doi: 字符串
- affiliations: 字符串
- medline_ta: 字符串
- nlm_unique_id: 字符串
- issn_linking: 字符串
- country: 字符串
- mesh_terms: 字符串
- publication_types: 字符串
- chemical_list: 字符串
- keywords: 字符串
- references: 字符串
- delete: 布尔值
- pmc: 字符串
- other_id: 字符串
- safetyreportid: 整数
- fulltext_processed: 字符串
数据集分割
- test: 3628个样本,占用155748936字节
- train: 9624个样本,占用374859364字节
- validation: 2407个样本,占用96385392字节
数据集大小
- 下载大小: 337571954字节
- 数据集总大小: 626993692字节
搜集汇总
数据集介绍

构建方式
BioDEX-ICSR数据集是基于生物医学文献中药物不良事件报告构建的大规模信息抽取资源。其构建过程从PubMed和PMC数据库中系统性地采集文献全文、摘要及元数据,通过严格的规范化处理,如标题标准化、全文文本清洗,并与FDA不良事件报告系统(FAERS)中的安全报告ID进行关联映射,形成结构化的多字段数据集。数据被划分为训练集(9624例)、验证集(2407例)和测试集(3628例),确保模型评估的可靠性与泛化能力。
使用方法
BioDEX-ICSR适用于多种自然语言处理任务,包括不良事件实体识别、关系抽取以及文本分类。用户可直接通过HuggingFace Datasets库加载该数据集,利用其预定义的训练、验证和测试划分进行模型训练与评估。在具体应用中,可结合'fulltext_processed'字段进行全文级信息提取,或利用'title'和'abstract'开展摘要级分析。建议研究者根据任务需求选择合适的字段组合,并注意处理'delete'标志以过滤无效样本。
背景与挑战
背景概述
药物安全监测是公共卫生领域的重要议题,个体病例安全报告(ICSR)的自动化处理能够显著提升不良反应信号的识别效率。BioDEX-ICSR数据集由BioDEX项目团队创建,旨在从生物医学文献中提取结构化药物安全信息,涵盖标题、摘要、全文及目标标签等丰富字段。该数据集于近年发布,聚焦于将非结构化的临床文本转化为可计算的药物-事件关联,推动了自然语言处理在药物警戒中的深度应用。其构建依托于PubMed等权威数据库,研究人员通过精细标注和跨学科协作,解决了文献中安全报告实体识别与关系抽取的核心问题,为后续机器学习模型训练提供了标准化基准,对提升药物上市后安全性评估的自动化水平具有里程碑意义。
当前挑战
该数据集面临的核心挑战在于药物安全领域特有的复杂性:首先,个体病例报告中的药物不良反应描述常存在术语歧义、拼写变异及上下文依赖,导致实体边界识别困难,例如同一不良反应可能以不同医学术语或口语化表达呈现;其次,文献中安全事件的时间逻辑与剂量关联信息需要细粒度建模,传统序列标注方法难以捕捉跨句子的因果关系;在构建过程中,标注一致性受限于专家间对不良反应严重程度判定的主观差异,且从海量PubMed文献中筛选相关报告需处理噪音数据与类别不平衡问题,例如罕见不良反应样本稀缺。此外,多源文献的版权与格式差异增加了数据整合的工程难度,全文本获取与结构化清洗成为规模化扩展的瓶颈。
常用场景
经典使用场景
BioDEX-ICSR数据集作为生物医学文献中药物不良事件信息抽取的标杆资源,其经典使用场景聚焦于从海量PubMed文献中自动提取个体病例安全报告(ICSR)的结构化信息。研究者利用该数据集训练序列标注与关系抽取模型,精准识别药物、不良反应、患者人口学特征等关键实体及其语义关联,从而构建从非结构化文本到标准化安全报告的知识转换通道。该场景广泛服务于药物警戒领域的知识图谱构建与信号检测任务。
解决学术问题
该数据集系统性地回应了生物医学自然语言处理中文献级安全信息抽取的长期挑战,尤其是解决了个体病例安全报告(ICSR)要素自动识别与结构化表示的学术难题。通过提供大规模、多源标注的文献语料,BioDEX-ICSR使研究者能够摆脱传统依赖人工编码的低效模式,推动基于深度学习的端到端抽取范式。其意义在于显著降低了药物上市后安全性监测的研究门槛,为因果推断、不良反应信号挖掘等前沿方向奠定了数据基础。
实际应用
在实际应用中,BioDEX-ICSR驱动的模型可嵌入药物警戒系统,自动从每日更新的生物医学文献中提取潜在不良反应事件,辅助药企与监管机构快速识别药物安全信号。该数据集支持开发实时文献监测工具,用于药品说明书修订、风险管控计划制定以及上市后安全性评价。此外,其在临床决策支持系统中扮演关键角色,通过整合文献证据为医生提供个体化用药风险提示。
数据集最近研究
最新研究方向
BioDEX-ICSR数据集聚焦于生物医学文献中个体病例安全报告(ICSR)的结构化信息抽取,其前沿研究方向紧密围绕药物警戒与真实世界证据挖掘。随着全球药品不良反应监测体系的完善,如何从海量非结构化临床文献中自动、精准地提取病例报告的关键要素(如药物、不良反应、患者特征)成为热点。该数据集通过提供包含标题、摘要、全文及标准化标签的丰富多模态信息,推动了大语言模型在医学文本细粒度实体关系抽取中的突破性应用。其影响深远,不仅加速了药物安全性信号的早期发现与评估,还为构建可解释、可信赖的临床决策支持系统奠定了数据基础,在精准医疗与公共卫生监测中具有里程碑意义。
以上内容由遇见数据集搜集并总结生成



