five

ktgiahieu/maccrobat2018_2020

收藏
Hugging Face2023-05-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/ktgiahieu/maccrobat2018_2020
下载链接
链接失效反馈
官方服务:
资源简介:
--- license: cc-by-4.0 --- Modified dataset from: Caufield, J. Harry (2019): MACCROBAT. figshare. Dataset. https://doi.org/10.6084/m9.figshare.9764942.v2 Example training notebook: https://colab.research.google.com/drive/1OzCY782KJSF0FBDS0d1CoMhfp3-RtJMV?usp=sharing Labels: ``` 0: B-Activity 1: B-Administration 2: B-Age 3: B-Area 4: B-Biological_attribute 5: B-Biological_structure 6: B-Clinical_event 7: B-Color 8: B-Coreference 9: B-Date 10: B-Detailed_description 11: B-Diagnostic_procedure 12: B-Disease_disorder 13: B-Distance 14: B-Dosage 15: B-Duration 16: B-Family_history 17: B-Frequency 18: B-Height 19: B-History 20: B-Lab_value 21: B-Mass 22: B-Medication 23: B-Nonbiological_location 24: B-Occupation 25: B-Other_entity 26: B-Other_event 27: B-Outcome 28: B-Personal_background 29: B-Qualitative_concept 30: B-Quantitative_concept 31: B-Severity 32: B-Sex 33: B-Shape 34: B-Sign_symptom 35: B-Subject 36: B-Texture 37: B-Therapeutic_procedure 38: B-Time 39: B-Volume 40: B-Weight 41: I-Activity 42: I-Administration 43: I-Age 44: I-Area 45: I-Biological_attribute 46: I-Biological_structure 47: I-Clinical_event 48: I-Color 49: I-Coreference 50: I-Date 51: I-Detailed_description 52: I-Diagnostic_procedure 53: I-Disease_disorder 54: I-Distance 55: I-Dosage 56: I-Duration 57: I-Family_history 58: I-Frequency 59: I-Height 60: I-History 61: I-Lab_value 62: I-Mass 63: I-Medication 64: I-Nonbiological_location 65: I-Occupation 66: I-Other_entity 67: I-Other_event 68: I-Outcome 69: I-Personal_background 70: I-Qualitative_concept 71: I-Quantitative_concept 72: I-Severity 73: I-Shape 74: I-Sign_symptom 75: I-Subject 76: I-Texture 77: I-Therapeutic_procedure 78: I-Time 79: I-Volume 80: I-Weight 81: O ```

--- 许可证:知识共享署名4.0(CC BY 4.0) --- 本数据集修改自: Caufield, J. Harry (2019): MACCROBAT。figshare。数据集。https://doi.org/10.6084/m9.figshare.9764942.v2 示例训练笔记本:https://colab.research.google.com/drive/1OzCY782KJSF0FBDS0d1CoMhfp3-RtJMV?usp=sharing 标注标签: 0: B-活动(Activity) 1: B-管理(Administration) 2: B-年龄(Age) 3: B-区域(Area) 4: B-生物学属性(Biological_attribute) 5: B-生物学结构(Biological_structure) 6: B-临床事件(Clinical_event) 7: B-颜色(Color) 8: B-共指(Coreference) 9: B-日期(Date) 10: B-详细描述(Detailed_description) 11: B-诊断操作(Diagnostic_procedure) 12: B-疾病紊乱(Disease_disorder) 13: B-距离(Distance) 14: B-剂量(Dosage) 15: B-持续时长(Duration) 16: B-家族病史(Family_history) 17: B-频率(Frequency) 18: B-身高(Height) 19: B-病史(History) 20: B-实验室检测值(Lab_value) 21: B-质量(Mass) 22: B-药物(Medication) 23: B-非生物位置(Nonbiological_location) 24: B-职业(Occupation) 25: B-其他实体(Other_entity) 26: B-其他事件(Other_event) 27: B-结局(Outcome) 28: B-个人背景(Personal_background) 29: B-定性概念(Qualitative_concept) 30: B-定量概念(Quantitative_concept) 31: B-严重程度(Severity) 32: B-性别(Sex) 33: B-形状(Shape) 34: B-体征症状(Sign_symptom) 35: B-主体(Subject) 36: B-质地(Texture) 37: B-治疗操作(Therapeutic_procedure) 38: B-时间(Time) 39: B-体积(Volume) 40: B-体重(Weight) 41: I-活动(Activity) 42: I-管理(Administration) 43: I-年龄(Age) 44: I-区域(Area) 45: I-生物学属性(Biological_attribute) 46: I-生物学结构(Biological_structure) 47: I-临床事件(Clinical_event) 48: I-颜色(Color) 49: I-共指(Coreference) 50: I-日期(Date) 51: I-详细描述(Detailed_description) 52: I-诊断操作(Diagnostic_procedure) 53: I-疾病紊乱(Disease_disorder) 54: I-距离(Distance) 55: I-剂量(Dosage) 56: I-持续时长(Duration) 57: I-家族病史(Family_history) 58: I-频率(Frequency) 59: I-身高(Height) 60: I-病史(History) 61: I-实验室检测值(Lab_value) 62: I-质量(Mass) 63: I-药物(Medication) 64: I-非生物位置(Nonbiological_location) 65: I-职业(Occupation) 66: I-其他实体(Other_entity) 67: I-其他事件(Other_event) 68: I-结局(Outcome) 69: I-个人背景(Personal_background) 70: I-定性概念(Qualitative_concept) 71: I-定量概念(Quantitative_concept) 72: I-严重程度(Severity) 73: I-形状(Shape) 74: I-体征症状(Sign_symptom) 75: I-主体(Subject) 76: I-质地(Texture) 77: I-治疗操作(Therapeutic_procedure) 78: I-时间(Time) 79: I-体积(Volume) 80: I-体重(Weight) 81: O(非实体标记)
提供机构:
ktgiahieu
原始信息汇总

数据集概述

数据集来源

  • 该数据集是对Caufield, J. Harry (2019)发布的MACCROBAT数据集的修改版本。
  • 原始数据集链接:https://doi.org/10.6084/m9.figshare.9764942.v2

标签说明

  • 该数据集包含82个标签,用于标注不同类型的实体和属性。
  • 标签分为两类:B-标签和I-标签,分别表示实体的开始和内部。
  • 具体标签如下:
    • 0: B-Activity
    • 1: B-Administration
    • 2: B-Age
    • 3: B-Area
    • 4: B-Biological_attribute
    • 5: B-Biological_structure
    • 6: B-Clinical_event
    • 7: B-Color
    • 8: B-Coreference
    • 9: B-Date
    • 10: B-Detailed_description
    • 11: B-Diagnostic_procedure
    • 12: B-Disease_disorder
    • 13: B-Distance
    • 14: B-Dosage
    • 15: B-Duration
    • 16: B-Family_history
    • 17: B-Frequency
    • 18: B-Height
    • 19: B-History
    • 20: B-Lab_value
    • 21: B-Mass
    • 22: B-Medication
    • 23: B-Nonbiological_location
    • 24: B-Occupation
    • 25: B-Other_entity
    • 26: B-Other_event
    • 27: B-Outcome
    • 28: B-Personal_background
    • 29: B-Qualitative_concept
    • 30: B-Quantitative_concept
    • 31: B-Severity
    • 32: B-Sex
    • 33: B-Shape
    • 34: B-Sign_symptom
    • 35: B-Subject
    • 36: B-Texture
    • 37: B-Therapeutic_procedure
    • 38: B-Time
    • 39: B-Volume
    • 40: B-Weight
    • 41: I-Activity
    • 42: I-Administration
    • 43: I-Age
    • 44: I-Area
    • 45: I-Biological_attribute
    • 46: I-Biological_structure
    • 47: I-Clinical_event
    • 48: I-Color
    • 49: I-Coreference
    • 50: I-Date
    • 51: I-Detailed_description
    • 52: I-Diagnostic_procedure
    • 53: I-Disease_disorder
    • 54: I-Distance
    • 55: I-Dosage
    • 56: I-Duration
    • 57: I-Family_history
    • 58: I-Frequency
    • 59: I-Height
    • 60: I-History
    • 61: I-Lab_value
    • 62: I-Mass
    • 63: I-Medication
    • 64: I-Nonbiological_location
    • 65: I-Occupation
    • 66: I-Other_entity
    • 67: I-Other_event
    • 68: I-Outcome
    • 69: I-Personal_background
    • 70: I-Qualitative_concept
    • 71: I-Quantitative_concept
    • 72: I-Severity
    • 73: I-Shape
    • 74: I-Sign_symptom
    • 75: I-Subject
    • 76: I-Texture
    • 77: I-Therapeutic_procedure
    • 78: I-Time
    • 79: I-Volume
    • 80: I-Weight
    • 81: O
搜集汇总
数据集介绍
main_image_url
构建方式
在生物医学信息抽取领域,MACCROBAT数据集源自Caufield等人于2019年通过figshare平台发布的原始标注语料。该数据集经过精心整理与重构,采用命名实体识别(NER)的标准框架,将文本中的生物医学实体划分为82个细粒度类别,涵盖从疾病、症状到治疗程序等广泛范畴。构建过程中,研究者依据专业医学知识对原始语料进行系统标注,确保实体边界的精确性与类别定义的一致性,从而为后续模型训练提供了高质量的监督信号。
特点
该数据集的核心特征在于其精细的实体分类体系,不仅包含常见的生物医学实体如疾病、药物和临床事件,还扩展至年龄、颜色、质地等属性描述,以及家族史、个人背景等上下文信息。实体标注遵循BIO(Begin-Inside-Outside)序列标注范式,区分实体的起始与内部位置,增强了序列建模的解析能力。数据集的多样性与层次性为模型理解复杂医学文本中的语义关系提供了丰富资源,尤其适用于多类别实体识别任务的评估与优化。
使用方法
使用该数据集时,研究者可借助HuggingFace平台直接加载预处理版本,并参考提供的示例训练笔记进行模型开发。典型流程包括将文本序列与对应标签输入序列标注模型,如基于BERT的架构,通过微调以学习实体边界与类别映射。数据集适用于训练、验证与测试划分,支持跨领域迁移学习或特定医学场景的适应性研究。输出结果可直接用于下游任务如临床信息提取或知识图谱构建,推动生物医学自然语言处理的应用深化。
背景与挑战
背景概述
MACCROBAT数据集由J. Harry Caufield于2019年创建,源自figshare平台,专注于生物医学文本的命名实体识别任务。该数据集旨在支持自然语言处理技术在医疗健康领域的应用,通过标注丰富的实体类别,如疾病、药物、临床事件等,为研究者提供了结构化解析非结构化医学文本的基础资源。其构建工作体现了学术界对提升医疗信息抽取精度的持续追求,对推动临床决策支持系统和生物医学知识图谱的发展具有显著影响力。
当前挑战
该数据集致力于解决生物医学文本中命名实体识别的复杂挑战,包括处理医学术语的多样性和歧义性,以及区分细粒度实体类别如“Biological_attribute”与“Quantitative_concept”。在构建过程中,面临的主要困难在于标注一致性的维护,由于实体类别多达80余种,且涉及专业领域知识,确保不同标注者之间的标准统一成为关键瓶颈。此外,医学文本的隐私性和数据获取限制也增加了数据集构建的复杂性。
常用场景
经典使用场景
在生物医学信息抽取领域,MACCROBAT数据集为命名实体识别任务提供了丰富的标注资源。该数据集源自临床文本,涵盖了从疾病、症状到治疗过程等四十余种实体类型,支持序列标注模型的训练与评估。研究者常利用其精细的实体分类体系,构建端到端的实体识别系统,以自动化提取临床记录中的关键医学概念,为后续信息整合与分析奠定基础。
解决学术问题
该数据集有效应对了临床文本中实体类型多样且边界模糊的挑战,解决了传统方法在细粒度医学实体识别上的不足。通过提供大规模标注数据,它促进了深度学习模型在生物医学领域的适配性研究,推动了实体识别精度与泛化能力的提升。其意义在于为标准化评估提供了基准,加速了医学自然语言处理技术的临床转化进程。
衍生相关工作
围绕该数据集,学术界衍生了一系列经典工作,包括基于BERT等预训练模型的生物医学实体识别框架的优化研究。这些工作通过迁移学习与领域自适应策略,显著提升了模型在临床文本上的表现。同时,该数据集也常被用于多任务学习与跨语言医学信息抽取的探索,为构建更鲁棒的医疗人工智能系统提供了重要参考。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作