ktgiahieu/maccrobat2018_2020
收藏Hugging Face2023-05-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ktgiahieu/maccrobat2018_2020
下载链接
链接失效反馈官方服务:
资源简介:
---
license: cc-by-4.0
---
Modified dataset from:
Caufield, J. Harry (2019): MACCROBAT. figshare. Dataset. https://doi.org/10.6084/m9.figshare.9764942.v2
Example training notebook: https://colab.research.google.com/drive/1OzCY782KJSF0FBDS0d1CoMhfp3-RtJMV?usp=sharing
Labels:
```
0: B-Activity
1: B-Administration
2: B-Age
3: B-Area
4: B-Biological_attribute
5: B-Biological_structure
6: B-Clinical_event
7: B-Color
8: B-Coreference
9: B-Date
10: B-Detailed_description
11: B-Diagnostic_procedure
12: B-Disease_disorder
13: B-Distance
14: B-Dosage
15: B-Duration
16: B-Family_history
17: B-Frequency
18: B-Height
19: B-History
20: B-Lab_value
21: B-Mass
22: B-Medication
23: B-Nonbiological_location
24: B-Occupation
25: B-Other_entity
26: B-Other_event
27: B-Outcome
28: B-Personal_background
29: B-Qualitative_concept
30: B-Quantitative_concept
31: B-Severity
32: B-Sex
33: B-Shape
34: B-Sign_symptom
35: B-Subject
36: B-Texture
37: B-Therapeutic_procedure
38: B-Time
39: B-Volume
40: B-Weight
41: I-Activity
42: I-Administration
43: I-Age
44: I-Area
45: I-Biological_attribute
46: I-Biological_structure
47: I-Clinical_event
48: I-Color
49: I-Coreference
50: I-Date
51: I-Detailed_description
52: I-Diagnostic_procedure
53: I-Disease_disorder
54: I-Distance
55: I-Dosage
56: I-Duration
57: I-Family_history
58: I-Frequency
59: I-Height
60: I-History
61: I-Lab_value
62: I-Mass
63: I-Medication
64: I-Nonbiological_location
65: I-Occupation
66: I-Other_entity
67: I-Other_event
68: I-Outcome
69: I-Personal_background
70: I-Qualitative_concept
71: I-Quantitative_concept
72: I-Severity
73: I-Shape
74: I-Sign_symptom
75: I-Subject
76: I-Texture
77: I-Therapeutic_procedure
78: I-Time
79: I-Volume
80: I-Weight
81: O
```
---
许可证:知识共享署名4.0(CC BY 4.0)
---
本数据集修改自:
Caufield, J. Harry (2019): MACCROBAT。figshare。数据集。https://doi.org/10.6084/m9.figshare.9764942.v2
示例训练笔记本:https://colab.research.google.com/drive/1OzCY782KJSF0FBDS0d1CoMhfp3-RtJMV?usp=sharing
标注标签:
0: B-活动(Activity)
1: B-管理(Administration)
2: B-年龄(Age)
3: B-区域(Area)
4: B-生物学属性(Biological_attribute)
5: B-生物学结构(Biological_structure)
6: B-临床事件(Clinical_event)
7: B-颜色(Color)
8: B-共指(Coreference)
9: B-日期(Date)
10: B-详细描述(Detailed_description)
11: B-诊断操作(Diagnostic_procedure)
12: B-疾病紊乱(Disease_disorder)
13: B-距离(Distance)
14: B-剂量(Dosage)
15: B-持续时长(Duration)
16: B-家族病史(Family_history)
17: B-频率(Frequency)
18: B-身高(Height)
19: B-病史(History)
20: B-实验室检测值(Lab_value)
21: B-质量(Mass)
22: B-药物(Medication)
23: B-非生物位置(Nonbiological_location)
24: B-职业(Occupation)
25: B-其他实体(Other_entity)
26: B-其他事件(Other_event)
27: B-结局(Outcome)
28: B-个人背景(Personal_background)
29: B-定性概念(Qualitative_concept)
30: B-定量概念(Quantitative_concept)
31: B-严重程度(Severity)
32: B-性别(Sex)
33: B-形状(Shape)
34: B-体征症状(Sign_symptom)
35: B-主体(Subject)
36: B-质地(Texture)
37: B-治疗操作(Therapeutic_procedure)
38: B-时间(Time)
39: B-体积(Volume)
40: B-体重(Weight)
41: I-活动(Activity)
42: I-管理(Administration)
43: I-年龄(Age)
44: I-区域(Area)
45: I-生物学属性(Biological_attribute)
46: I-生物学结构(Biological_structure)
47: I-临床事件(Clinical_event)
48: I-颜色(Color)
49: I-共指(Coreference)
50: I-日期(Date)
51: I-详细描述(Detailed_description)
52: I-诊断操作(Diagnostic_procedure)
53: I-疾病紊乱(Disease_disorder)
54: I-距离(Distance)
55: I-剂量(Dosage)
56: I-持续时长(Duration)
57: I-家族病史(Family_history)
58: I-频率(Frequency)
59: I-身高(Height)
60: I-病史(History)
61: I-实验室检测值(Lab_value)
62: I-质量(Mass)
63: I-药物(Medication)
64: I-非生物位置(Nonbiological_location)
65: I-职业(Occupation)
66: I-其他实体(Other_entity)
67: I-其他事件(Other_event)
68: I-结局(Outcome)
69: I-个人背景(Personal_background)
70: I-定性概念(Qualitative_concept)
71: I-定量概念(Quantitative_concept)
72: I-严重程度(Severity)
73: I-形状(Shape)
74: I-体征症状(Sign_symptom)
75: I-主体(Subject)
76: I-质地(Texture)
77: I-治疗操作(Therapeutic_procedure)
78: I-时间(Time)
79: I-体积(Volume)
80: I-体重(Weight)
81: O(非实体标记)
提供机构:
ktgiahieu
原始信息汇总
数据集概述
数据集来源
- 该数据集是对Caufield, J. Harry (2019)发布的MACCROBAT数据集的修改版本。
- 原始数据集链接:https://doi.org/10.6084/m9.figshare.9764942.v2
标签说明
- 该数据集包含82个标签,用于标注不同类型的实体和属性。
- 标签分为两类:B-标签和I-标签,分别表示实体的开始和内部。
- 具体标签如下:
- 0: B-Activity
- 1: B-Administration
- 2: B-Age
- 3: B-Area
- 4: B-Biological_attribute
- 5: B-Biological_structure
- 6: B-Clinical_event
- 7: B-Color
- 8: B-Coreference
- 9: B-Date
- 10: B-Detailed_description
- 11: B-Diagnostic_procedure
- 12: B-Disease_disorder
- 13: B-Distance
- 14: B-Dosage
- 15: B-Duration
- 16: B-Family_history
- 17: B-Frequency
- 18: B-Height
- 19: B-History
- 20: B-Lab_value
- 21: B-Mass
- 22: B-Medication
- 23: B-Nonbiological_location
- 24: B-Occupation
- 25: B-Other_entity
- 26: B-Other_event
- 27: B-Outcome
- 28: B-Personal_background
- 29: B-Qualitative_concept
- 30: B-Quantitative_concept
- 31: B-Severity
- 32: B-Sex
- 33: B-Shape
- 34: B-Sign_symptom
- 35: B-Subject
- 36: B-Texture
- 37: B-Therapeutic_procedure
- 38: B-Time
- 39: B-Volume
- 40: B-Weight
- 41: I-Activity
- 42: I-Administration
- 43: I-Age
- 44: I-Area
- 45: I-Biological_attribute
- 46: I-Biological_structure
- 47: I-Clinical_event
- 48: I-Color
- 49: I-Coreference
- 50: I-Date
- 51: I-Detailed_description
- 52: I-Diagnostic_procedure
- 53: I-Disease_disorder
- 54: I-Distance
- 55: I-Dosage
- 56: I-Duration
- 57: I-Family_history
- 58: I-Frequency
- 59: I-Height
- 60: I-History
- 61: I-Lab_value
- 62: I-Mass
- 63: I-Medication
- 64: I-Nonbiological_location
- 65: I-Occupation
- 66: I-Other_entity
- 67: I-Other_event
- 68: I-Outcome
- 69: I-Personal_background
- 70: I-Qualitative_concept
- 71: I-Quantitative_concept
- 72: I-Severity
- 73: I-Shape
- 74: I-Sign_symptom
- 75: I-Subject
- 76: I-Texture
- 77: I-Therapeutic_procedure
- 78: I-Time
- 79: I-Volume
- 80: I-Weight
- 81: O
搜集汇总
数据集介绍

构建方式
在生物医学信息抽取领域,MACCROBAT数据集源自Caufield等人于2019年通过figshare平台发布的原始标注语料。该数据集经过精心整理与重构,采用命名实体识别(NER)的标准框架,将文本中的生物医学实体划分为82个细粒度类别,涵盖从疾病、症状到治疗程序等广泛范畴。构建过程中,研究者依据专业医学知识对原始语料进行系统标注,确保实体边界的精确性与类别定义的一致性,从而为后续模型训练提供了高质量的监督信号。
特点
该数据集的核心特征在于其精细的实体分类体系,不仅包含常见的生物医学实体如疾病、药物和临床事件,还扩展至年龄、颜色、质地等属性描述,以及家族史、个人背景等上下文信息。实体标注遵循BIO(Begin-Inside-Outside)序列标注范式,区分实体的起始与内部位置,增强了序列建模的解析能力。数据集的多样性与层次性为模型理解复杂医学文本中的语义关系提供了丰富资源,尤其适用于多类别实体识别任务的评估与优化。
使用方法
使用该数据集时,研究者可借助HuggingFace平台直接加载预处理版本,并参考提供的示例训练笔记进行模型开发。典型流程包括将文本序列与对应标签输入序列标注模型,如基于BERT的架构,通过微调以学习实体边界与类别映射。数据集适用于训练、验证与测试划分,支持跨领域迁移学习或特定医学场景的适应性研究。输出结果可直接用于下游任务如临床信息提取或知识图谱构建,推动生物医学自然语言处理的应用深化。
背景与挑战
背景概述
MACCROBAT数据集由J. Harry Caufield于2019年创建,源自figshare平台,专注于生物医学文本的命名实体识别任务。该数据集旨在支持自然语言处理技术在医疗健康领域的应用,通过标注丰富的实体类别,如疾病、药物、临床事件等,为研究者提供了结构化解析非结构化医学文本的基础资源。其构建工作体现了学术界对提升医疗信息抽取精度的持续追求,对推动临床决策支持系统和生物医学知识图谱的发展具有显著影响力。
当前挑战
该数据集致力于解决生物医学文本中命名实体识别的复杂挑战,包括处理医学术语的多样性和歧义性,以及区分细粒度实体类别如“Biological_attribute”与“Quantitative_concept”。在构建过程中,面临的主要困难在于标注一致性的维护,由于实体类别多达80余种,且涉及专业领域知识,确保不同标注者之间的标准统一成为关键瓶颈。此外,医学文本的隐私性和数据获取限制也增加了数据集构建的复杂性。
常用场景
经典使用场景
在生物医学信息抽取领域,MACCROBAT数据集为命名实体识别任务提供了丰富的标注资源。该数据集源自临床文本,涵盖了从疾病、症状到治疗过程等四十余种实体类型,支持序列标注模型的训练与评估。研究者常利用其精细的实体分类体系,构建端到端的实体识别系统,以自动化提取临床记录中的关键医学概念,为后续信息整合与分析奠定基础。
解决学术问题
该数据集有效应对了临床文本中实体类型多样且边界模糊的挑战,解决了传统方法在细粒度医学实体识别上的不足。通过提供大规模标注数据,它促进了深度学习模型在生物医学领域的适配性研究,推动了实体识别精度与泛化能力的提升。其意义在于为标准化评估提供了基准,加速了医学自然语言处理技术的临床转化进程。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典工作,包括基于BERT等预训练模型的生物医学实体识别框架的优化研究。这些工作通过迁移学习与领域自适应策略,显著提升了模型在临床文本上的表现。同时,该数据集也常被用于多任务学习与跨语言医学信息抽取的探索,为构建更鲁棒的医疗人工智能系统提供了重要参考。
以上内容由遇见数据集搜集并总结生成



