five

CH-DDI

收藏
arXiv2025-02-13 更新2025-02-27 收录
下载链接:
http://arxiv.org/abs/2502.09247v1
下载链接
链接失效反馈
官方服务:
资源简介:
CH-DDI是一个专门为捕获医学文本复杂语义而设计的中文药物-药物相互作用数据集。该数据集由郑州大学合作创新中心互联网医疗与中国医学科学院阜外医院共同创建,旨在支持大规模知识图谱构建及下游应用。数据集通过精心设计的滑动窗口策略进行跨度切分,并利用多头注意力和双向LSTM提取上下文语义信息,为实体识别和关系抽取任务提供支持。CH-DDI的构建考虑了关系重叠问题,即同一药物可能与多个其他药物具有相同或不同的相互作用,这对于准确的语义理解至关重要。该数据集的应用领域是中文医疗文本的实体和关系抽取,目的是为了促进大规模知识图谱的构建和完成各种下游任务。

CH-DDI is a Chinese drug-drug interaction (DDI) dataset specifically designed to capture complex semantics in medical texts. This dataset was co-developed by the Collaborative Innovation Center for Internet Healthcare of Zhengzhou University and Fuwai Hospital, Chinese Academy of Medical Sciences, aiming to support large-scale knowledge graph construction and downstream applications. The dataset conducts span segmentation via a meticulously designed sliding window strategy, and extracts contextual semantic information using multi-head attention and bidirectional LSTM, providing support for entity recognition and relation extraction tasks. The construction of CH-DDI considers the relation overlap problem, i.e., a single drug may have identical or distinct interactions with multiple other drugs, which is critical for accurate semantic understanding. The application scope of this dataset covers entity and relation extraction from Chinese medical texts, with the goal of facilitating the construction of large-scale knowledge graphs and completing various downstream tasks.
提供机构:
郑州大学计算机与人工智能学院, 合作创新中心互联网医疗, 中国医学科学院阜外医院, 首都医科大学附属北京友谊医院老年科
创建时间:
2025-02-13
搜集汇总
数据集介绍
main_image_url
构建方式
CH-DDI数据集的构建旨在解决中文文本中复杂语义的实体关系抽取问题。该数据集从五种慢性疾病的药物说明书中爬取药物相互作用信息,经过句子分割和标注,最终形成了包含药物实体和七种交互类型的数据集。在构建过程中,特别关注了关系重叠问题,即一种药物可能与多种其他药物存在相同或不同的交互关系,因此对关系的准确语义理解至关重要。
特点
CH-DDI数据集的特点在于其专注于中文医疗文本中复杂的语义环境,这使得数据集在实体识别和关系抽取任务中具有独特的挑战性。数据集的构建考虑到了药物相互作用的多重性和复杂性,为研究提供了丰富的样本。此外,数据集的标注过程由临床医生指导,并经过多人审核,保证了数据的准确性和可靠性。
使用方法
使用CH-DDI数据集进行实体关系抽取研究时,可以采用基于跨度(Span)和交互融合表示的模型。模型首先通过编码器模块获取实体识别和关系抽取的嵌入表示,然后通过交互融合表示模块实现实体识别和关系抽取之间的双向信息交互。接着,基于跨度特征提取模块对候选跨度进行分割并提取特征。最后,实体识别模块和关系抽取模块分别对实体和关系进行分类。实验结果表明,该模型在CH-DDI数据集上取得了96.73%的实体识别F1-score和78.43%的关系抽取F1-score,展现出强大的泛化能力。
背景与挑战
背景概述
在自然语言处理领域,实体识别和关系抽取是构建大规模知识图谱的关键步骤。尽管在通用文本领域已有大量研究,但在中文医疗文本这一特定领域,尤其是具有复杂语义的医疗文本中,相关研究仍然有限。为了填补这一空白,研究人员创建了CH-DDI数据集,旨在捕捉医疗文本中的复杂语义。该数据集的创建不仅有助于构建中文药物-药物相互作用的知识图谱,还为医疗领域的信息抽取提供了宝贵资源。主要研究人员来自郑州大学计算机与人工智能学院、郑州大学互联网医疗与健康合作创新中心、中国医学科学院阜外医院以及北京友谊医院老年科。
当前挑战
CH-DDI数据集的创建和使用面临一系列挑战。首先,在中文医疗文本中,实体和关系之间可能存在重叠,这使得准确抽取关系变得更加困难。其次,为了有效地捕捉长距离依赖关系,研究人员提出了SEA模块,该模块在实体识别中发挥了重要作用。然而,如何在关系抽取中准确利用局部上下文语义仍然是一个挑战。此外,为了促进实体识别和关系抽取之间的信息交换,研究人员提出了交互融合表示模块,但如何有效地实现双向信息交换仍然是一个开放性问题。最后,数据集本身可能存在数据不平衡问题,这可能会影响模型的泛化能力。
常用场景
经典使用场景
CH-DDI数据集是专门为中国医学文本设计的,其核心应用在于联合实体-关系抽取。该数据集通过捕捉医学文本中的复杂语义,为构建大规模知识图谱提供了丰富的三元组数据。在医学研究中,CH-DDI被广泛应用于识别药物实体及其相互作用,从而帮助研究人员理解药物之间的潜在影响,预测药物副作用,优化治疗方案。此外,CH-DDI数据集还支持各种下游应用,如药物推荐系统、药物信息查询等。
衍生相关工作
CH-DDI数据集的提出为相关研究工作提供了重要的数据支持。基于CH-DDI数据集,研究人员可以进一步探索更有效的实体识别和关系抽取方法,提升模型在医学文本处理任务中的性能。此外,CH-DDI数据集还可以与其他数据集进行融合,构建更大规模的医学知识图谱,为医学研究提供更丰富的数据资源。
数据集最近研究
最新研究方向
CH-DDI数据集的引入为中文医疗文本中复杂语义的联合实体关系抽取提供了新的研究视角。该数据集设计旨在捕捉医疗文本的细节,并通过注意力机制来增强对复杂上下文语义信息的提取,从而提高实体识别和关系抽取的准确性。研究提出的SEA模块和交互融合表示模块有效解决了现有方法中信息交换效率低下的问题,并通过跨注意力机制和双向LSTM进一步细化特征提取。实验结果表明,该模型在CH-DDI和CoNLL04数据集上都展现了强大的泛化能力,实体识别和关系抽取的F1分数分别达到了96.73%和78.43%,以及89.54%和71.64%。这些成果不仅为中文医疗文本处理提供了有效的工具,也为构建大规模知识图谱和下游应用提供了支持。
相关研究论文
  • 1
    The Joint Entity-Relation Extraction Model Based on Span and Interactive Fusion Representation for Chinese Medical Texts with Complex Semantics郑州大学计算机与人工智能学院, 合作创新中心互联网医疗, 中国医学科学院阜外医院, 首都医科大学附属北京友谊医院老年科 · 2025年
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作