Chinese HealthNER Corpus

github2024-02-28 更新2024-05-31 收录

下载链接：

https://github.com/NCUEE-NLPLab/Chinese-HealthNER-Corpus

下载链接

链接失效反馈

官方服务：

资源简介：

Chinese HealthNER Corpus是由NYCU NLP Lab收集和标注的医疗命名实体识别数据集。该数据集首先从提供医疗信息的网站、在线健康相关新闻和医疗问答论坛中爬取文章，然后去除所有HTML标签、图像、视频和嵌入的网络广告，并将剩余文本分割成多个句子。数据集包含了10种实体类型，如人体、症状、医疗器材等，并由三名中文专业的本科生进行标注，标注一致性达到84.1%。

The Chinese HealthNER Corpus is a medical named entity recognition dataset collected and annotated by the NYCU NLP Lab. The dataset was initially compiled by scraping articles from websites providing medical information, online health-related news, and medical Q&A forums. All HTML tags, images, videos, and embedded web advertisements were removed, and the remaining text was segmented into multiple sentences. The dataset encompasses 10 types of entities, such as human body parts, symptoms, and medical equipment, and was annotated by three undergraduate students majoring in Chinese, achieving an annotation consistency rate of 84.1%.

创建时间：

2021-07-01

原始信息汇总

数据集概述

数据集名称

Chinese HealthNER Corpus

数据集描述

该数据集是由NYCU NLP Lab收集并标注的医疗领域命名实体识别（HealthNER）语料库。数据集首先从提供医疗信息的网站、在线健康相关新闻和医疗问答论坛中爬取文章，去除HTML标签、图片、视频和嵌入式网络广告后，将剩余文本分割成多个句子，并随机选择部分句子进行手动标注。

实体类型

数据集包含10种实体类型，具体如下：

实体类型	描述	示例
Body (人體)	人体的整体物理结构，包括生物细胞、组织、器官和系统。	“細胞核” (nucleus), “神經組織” (nerve tissue)
Symptom (症狀)	由特定疾病引起的任何疾病感或身体或精神变化。	“流鼻水” (rhinorrhea), “咳嗽” (cough)
Instrument (醫療器材)	用于执行特定医疗任务的工具或其他设备。	“血壓計” (blood pressure meter), “達文西手臂” (DaVinci Robots)
Examination (檢驗)	仔细检查以发现可能的疾病的行为。	“聽力檢查” (hearing test), “腦電波圖” (electroencephalography;EEG)
Chemical (化學物質)	通常在人体中发现的任何基本化学元素。	“去氧核糖核酸” (deoxyribonucleic acid; DNA), “糖化血色素”(glycated hemoglobin)
Disease (疾病)	由感染或健康失败而非事故引起的疾病。	“小兒麻痺症” (poliomyelitis; polio), “帕金森氏症” (Parkinson’s disease)
Drug (藥品)	用作药物的任何天然或人工制造的化学品。	“阿斯匹靈” (aspirin), “普拿疼” (acetaminophen)
Supplement (營養品)	添加到其他事物中以改善人类健康的东西。	“維他命” (vitamin), “膠原蛋白” (collagen)
Treatment (治療)	用于治疗疾病的行为方法。	“藥物治療” (pharmacotherapy), “胃切除術” (gastrectomy)
Time (時間)	以分钟、天、年为单位的存在元素。	“嬰兒期” (infancy), “幼兒時期” (early childhood)

数据集统计

训练集：28,161句，平均每句49.44字符或29.99词，2.17个命名实体。
测试集：2,531句，平均每句47.92字符或28.67词，2.89个命名实体。
总句数：30,692句，总字符数约150万，总词数91.7千。

数据格式

id : <String> 句子标识符
genre : <String> 文本类型，包括"ft"（正式文本）和"sm"（社交媒体）
sentence : <String> 句子字符序列
word : <List> 分词后的词序列
word_label : <List> 对应的词标签序列
character : <List> 分词后的字符序列
character_label : <List> 对应的字符标签序列

示例

{ "id": "00002", "genre": "sm", "sentence": "如何治療胃食道逆流症？", "word": ["如何", "治療", "胃食道逆流症", "？"], "word_label": ["O", "O", "DISE", "O"], "character": ["如", "何", "治", "療", "胃", "食", "道", "逆", "流", "症", "？"], "character_label": ["O", "O", "O", "O", "B-DISE", "I-DISE", "I-DISE", "I-DISE", "I-DISE", "I-DISE", "O"] }

搜集汇总

数据集介绍

构建方式

Chinese HealthNER Corpus的构建始于从提供医疗信息的网站、在线健康新闻及医疗问答论坛中爬取文章。随后，移除所有HTML标签、图片、视频及嵌入式广告，并将剩余文本分割为多个句子。为确保内容的多样性，随机选取部分句子进行人工标注。三名中文专业本科生经过分词和命名实体标注任务的培训，标注者间一致性达到84.1%。最终，数据集包含30,692个句子，涵盖约150万字符或9.17万单词，其中训练集28,161句，测试集2,531句。

使用方法

Chinese HealthNER Corpus适用于中文医疗领域的命名实体识别任务。用户可通过加载数据集文件，获取句子及其对应的分词和标注信息。数据格式为JSON，包含句子ID、文本类型、句子内容、分词列表、单词标签列表、字符列表及字符标签列表。研究者可利用该数据集训练和评估医疗命名实体识别模型，支持字符级和单词级的标注任务。数据集还可用于多粒度实体识别研究，为中文医疗文本分析提供高质量标注资源。

背景与挑战

背景概述

Chinese HealthNER Corpus是由NYCU NLP实验室于2021年构建的中文医疗命名实体识别数据集，旨在推动中文医疗文本的自动信息提取与处理。该数据集由Lung-Hao Lee和Yi Lu等研究人员主导，通过爬取医疗信息网站、在线健康新闻及医疗问答论坛的文本，经过清洗与标注，最终形成了包含30,692个句子、约150万字符的语料库。该数据集涵盖了10种医疗实体类型，如人体部位、症状、医疗器材等，为中文医疗领域的自然语言处理任务提供了重要的数据支持。其研究成果发表于IEEE Journal of Biomedical and Health Informatics，对医疗文本分析领域具有显著的学术影响力。

当前挑战

Chinese HealthNER Corpus在构建与应用过程中面临多重挑战。在领域问题方面，中文医疗文本的复杂性与多样性使得命名实体识别的准确率难以提升，尤其是医疗术语的歧义性和上下文依赖性增加了模型训练的难度。在数据构建过程中，文本来源的多样性与质量参差不齐，需通过严格的清洗与筛选确保数据的可靠性。此外，人工标注过程中，尽管通过训练与讨论将标注者间一致性提升至84.1%，但不同标注者对医疗术语的理解差异仍可能导致标注偏差。这些挑战不仅影响了数据集的构建效率，也对后续模型的性能优化提出了更高要求。

常用场景

经典使用场景

在医疗信息处理领域，Chinese HealthNER Corpus被广泛应用于中文医疗文本的命名实体识别任务。该数据集通过标注医疗相关的实体类型，如疾病、症状、药物等，为研究者提供了丰富的语料资源，支持开发高效的医疗文本分析工具。

解决学术问题

Chinese HealthNER Corpus有效解决了中文医疗文本中命名实体识别的难题。通过提供高质量的标注数据，该数据集帮助研究者克服了中文医疗文本的复杂性和多样性，推动了医疗信息提取和自然语言处理技术的发展，为医疗领域的智能化应用奠定了基础。

实际应用

在实际应用中，Chinese HealthNER Corpus被用于开发智能医疗助手、电子病历分析系统和医疗信息检索工具。这些应用能够自动识别和提取医疗文本中的关键信息，提高医疗服务的效率和质量，为医生和患者提供更精准的医疗支持。

数据集最近研究