mvarma/medwiki

Name: mvarma/medwiki
Creator: mvarma
Published: 2022-10-25 09:51:06
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/mvarma/medwiki

下载链接

链接失效反馈

官方服务：

资源简介：

MedWiki是一个从维基百科医学相关子集中收集的大型句子数据集，标注了统一医学语言系统（UMLS）知识库中的生物医学实体。每个实体都包含从UMLS和WikiData中获取的丰富类型信息。数据集包含超过1300万个句子和1700万个实体标注，可用作语言模型的预训练资源，并提高医学命名实体识别和消歧系统的性能，特别是对于罕见实体。数据集分为两个配置：MedWiki-Full和MedWiki-HQ，分别代表完整数据集和高质量标签子集。

MedWiki is a large-scale sentence-level dataset curated from the medical-related subsets of Wikipedia, annotated with biomedical entities from the Unified Medical Language System (UMLS) knowledge base. Each entity is equipped with rich type information sourced from both UMLS and WikiData. The dataset contains over 13 million sentences and 17 million entity annotations, which can serve as a pre-training resource for language models and enhance the performance of biomedical named entity recognition and disambiguation systems, especially for rare entities. The dataset is divided into two configurations: MedWiki-Full and MedWiki-HQ, which represent the full dataset and the high-quality annotated subset respectively.

提供机构：

mvarma

原始信息汇总

数据集概述

名称: MedWiki

语言: 英语 (en-US, en)

许可证: CC-BY-4.0

多语言性: 单语种

数据集大小: 未知

来源数据集: 扩展自Wikipedia

任务类别: 文本检索

任务ID: 实体链接检索

数据集描述

数据集总结: MedWiki是一个从医学相关的Wikipedia子集中收集的大规模句子数据集，注释了来自统一医学语言系统（UMLS）知识库的生物医学实体。数据集包含超过1300万句子及1700万实体注释，可作为语言模型的预训练资源，并能提升医学命名实体识别和消歧系统的性能，特别是对于罕见实体。

数据集结构:

数据实例: 每个数据点包含一个来自Wikipedia的句子，注释了UMLS医学实体及其相关的标题和类型。
数据字段: 包括sent_idx_unq（唯一标识符）、sentence（句子文本）、mentions（医学提及）、entities（实体标识）、entity_titles（实体标题）、types（实体类型）和spans（提及的词范围）。
数据分割: 数据集分为MedWiki-Full和MedWiki-HQ两种配置，每种配置的数据被分割为训练、开发和测试集。

数据集创建

来源数据:

初始数据收集和标准化: 数据来自2019年11月的英文Wikipedia转储，页面按80/10/10的比例分割为训练/开发/测试集，并进一步按句子级别分割。
源语言生产者: 英文Wikipedia的编辑。

注释:

注释过程: 使用弱标签技术创建MedWiki-Full和MedWiki-HQ两种配置。MedWiki-Full通过内部页面链接和基于代词及替代实体名称的弱标签生成黄金实体标签。MedWiki-HQ则是MedWiki-Full的子集，具有更高质量的标签。

使用数据集的考虑

社会影响: 数据集旨在促进更好的生物医学文本命名实体识别系统的创建，特别是针对罕见或不常见实体。

偏见讨论: 数据来源于英文Wikipedia，可能存在由编辑者引起的偏见，尽管这种偏见在医学文章中可能较少。

其他已知限制: 由于使用弱标签技术，实体注释可能存在噪声。为解决此问题，提供了具有更高质量标签的MedWiki-HQ配置。

搜集汇总

数据集介绍

构建方式

MedWiki数据集的构建是通过从Wikipedia中收集与医学相关的句子，并使用UMLS知识库中的生物医学实体进行标注。首先，使用弱标注程序对句子中的WikiData实体进行标注，然后通过数据集成方法将WikiData实体映射到UMLS中的对应实体。此外，还收集了每个实体的类型信息，包括来自UMLS和WikiData的类型。为了提高标注质量，还提供了一个MedWiki-HQ子集，其中包含更高质量的标签，以减少标注过程中的噪声。

特点

MedWiki数据集的特点是它包含超过1300万句句子和1700万个实体标注，使其成为预训练语言模型的宝贵资源。此外，数据集涵盖了UMLS知识库中的大量实体，并包括与每个实体相关的丰富类型信息，这有助于提高医学命名实体识别和消歧系统的性能，尤其是在处理罕见实体时。数据集分为MedWiki-Full和MedWiki-HQ两种配置，其中MedWiki-HQ是一个具有更高质量标签的子集，旨在减少标注过程中的噪声。

使用方法

MedWiki数据集的使用方法包括将其作为预训练资源来训练语言模型，以提高医学命名实体识别和消歧系统的性能。数据集包括训练、开发和测试三个数据集，可以用于模型训练、验证和测试。此外，MedWiki数据集还可以用于研究命名实体识别和消歧算法，以及研究医学文本中的实体关系和语义。

背景与挑战

背景概述

MedWiki数据集是源自医学相关维基百科子集的大型句子数据集，其注解包含统一医学语言系统(UMLS)知识库中的生物医学实体。该数据集由Maya Varma等研究人员于2021年创建，旨在为语言模型提供预训练资源，并提升医学命名实体识别和消歧系统的性能，特别是在稀有实体方面。MedWiki数据集包含了超过1300万条句子和1700万个实体注解，通过弱标签程序和跨域数据集成方法进行标注，使其成为生物医学文本信息提取与分析的重要工具。该数据集已在交叉域数据集成方面取得了显著成果，为生物医学命名实体消歧任务提供了有力支持。

当前挑战

MedWiki数据集面临的挑战主要包括：1)现有医学文本数据集在UMLS医学知识库的覆盖面上存在局限性，导致语言模型在学习和推理方面存在困难；2)构建过程中，弱标签程序可能引入噪声，影响实体注解的准确性；3)数据集中可能存在来自维基百科的意识形态偏见，尤其是在政治议题或由少数作者撰写的文章中。此外，由于数据集的标注采用弱标签技术，实体注解中可能存在一定程度的噪声，虽然MedWiki-HQ配置旨在提高标签质量，但仍需关注这一问题。

常用场景

经典使用场景

MedWiki作为一项大规模的文本数据集，源于医疗相关的维基百科子集，并被标注为生物医学实体。其最经典的使用场景在于，它能够作为语言模型的预训练资源，特别是对于医学命名实体识别和消歧系统。通过利用MedWiki的数据，模型能够学习到复杂的推理模式，从而在实体链接或消歧任务中提高性能，尤其是在处理罕见实体时。此外，MedWiki还能够帮助创建更好的命名实体识别系统，从而改善从大量生物医学文本中自动解析和信息检索的能力。

解决学术问题

MedWiki的创建解决了现有医学文本数据集范围有限的问题。这些数据集往往无法涵盖UMLS医学知识库中的实体和结构资源的充分覆盖。MedWiki通过从维基百科收集句子并标注为UMLS知识库中的医学实体，为语言模型提供了大规模的预训练数据。这使得模型能够学习到复杂的推理模式，从而在实体链接或消歧任务中提高性能，尤其是在处理罕见实体时。MedWiki的出现，对于改善自动解析和信息检索从大量生物医学文本中的能力具有重要意义。

衍生相关工作

MedWiki的创建衍生了许多相关的经典工作。例如，MedWiki-Full和MedWiki-HQ两种配置的数据集，为研究者提供了不同质量的数据选择。此外，MedWiki的创建过程，包括数据收集、标注和映射等步骤，也为其他医学文本数据集的创建提供了参考。这些相关工作的出现，进一步推动了医学文本处理领域的研究，为创建更精确、更高效的医学命名实体识别和消歧系统提供了支持。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集