医疗语料库（Medical-Names-Corpus）

github2024-02-23 更新2024-05-31 收录

下载链接：

https://github.com/wainshine/Medical-Names-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

包含医疗机构名语料库和药品本位码，用于中文分词、药品名识别等场景。数据大小分别为260万和18万，语料来源为多个词典汇总，数据清洗状态为未清洗。

This dataset comprises a corpus of medical institution names and a repository of drug standard codes, designed for applications such as Chinese word segmentation and drug name recognition. The dataset sizes are 2.6 million and 180,000 entries respectively, sourced from multiple dictionaries and currently in an unrefined state.

创建时间：

2019-09-09

原始信息汇总

医疗语料库（Medical-Names-Corpus）概述

数据集描述

用途：本子项目可用于中文分词、药品名识别等场景。
数据来源：个人收集并建立的行业词典。

数据集更新记录

新增18万药品本位码。 -2019.09.28
删除部分badcase。 -2020.12.13
新增260万泛医疗机构名。 -2021.05.30
删除部分badcase。 -2022.11.30

维护信息

维护目的：除个人兴趣外，主要是在此过程中，可通过任务驱动来不断学习和实践NLP、KG以及AI等相关前沿技术。

搜集汇总

数据集介绍

构建方式

医疗语料库（Medical-Names-Corpus）的构建依托于大数据和自然语言处理技术，通过分词工具对海量文本进行分词和词频统计，经过数据清洗后，形成了千万级的人名词典。在此基础上，进一步对数据进行性别、年龄、拼音、情感等多维度标记，最终构建了包含5600万+中文人名图谱的语料库。为提升数据质量，个人还收集并建立了大量行业词典，医疗语料库即是其中之一，专门用于剔除人名和机构名中的不良案例。

使用方法

医疗语料库（Medical-Names-Corpus）的使用方法灵活多样，适用于多种自然语言处理任务。用户可通过GitHub平台获取数据集，并根据需求进行下载和应用。在中文分词任务中，该语料库可用于提升分词精度；在药品名识别场景中，其丰富的药品本位码数据可辅助模型训练和验证。需要注意的是，部分数据未经清洗，用户在使用时应结合具体场景进行进一步处理，以确保数据的准确性和适用性。

背景与挑战

背景概述

医疗语料库（Medical-Names-Corpus）是由萌名（NameMoe）团队于2019年创建的一个专注于医疗领域的中文语料库。该语料库的构建旨在通过大数据和自然语言处理技术，为中文分词、药品名识别等任务提供高质量的数据支持。其主要研究人员通过收集和整理多个词典，构建了包含260万泛医疗机构名和18万药品本位码的语料库。该数据集的创建不仅推动了医疗领域自然语言处理技术的发展，还为相关研究提供了宝贵的资源。

当前挑战

医疗语料库在构建过程中面临多重挑战。首先，医疗领域的专业术语和机构名称复杂多样，如何准确识别和分类这些实体是一个技术难题。其次，数据集中包含大量不可信实体，如莆田系医疗机构和无营业执照的机构，这些数据的清洗和验证需要耗费大量时间和精力。此外，药品本位码的识别和分类也面临数据来源多样性和数据质量不一致的问题。这些挑战不仅影响了数据集的构建效率，也对后续的应用和研究提出了更高的要求。

常用场景

经典使用场景

医疗语料库（Medical-Names-Corpus）在自然语言处理领域中被广泛应用于中文分词和药品名识别。通过该语料库，研究人员能够有效地训练和优化分词模型，特别是在处理医疗文本时，能够准确识别和分类药品名称，提升文本处理的精确度和效率。

解决学术问题

该数据集解决了医疗文本处理中的关键问题，如药品名的自动识别和分类。通过提供大量清洗后的医疗相关词汇，研究人员能够构建更为精确的自然语言处理模型，从而在医疗信息检索、电子病历分析等领域取得显著进展。

实际应用

在实际应用中，医疗语料库被用于开发智能医疗助手和电子病历系统。这些系统能够自动识别和提取病历中的药品信息，辅助医生进行诊断和治疗决策，极大地提高了医疗服务的效率和质量。

数据集最近研究