bigbio/ask_a_patient
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/ask_a_patient
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- en
bigbio_language:
- English
license: cc-by-4.0
multilinguality: monolingual
bigbio_license_shortname: CC_BY_4p0
pretty_name: AskAPatient
homepage: https://zenodo.org/record/55013
bigbio_pubmed: True
bigbio_public: True
bigbio_tasks:
- NAMED_ENTITY_RECOGNITION
- NAMED_ENTITY_DISAMBIGUATION
---
# Dataset Card for AskAPatient
## Dataset Description
- **Homepage:** https://zenodo.org/record/55013
- **Pubmed:** True
- **Public:** True
- **Tasks:** NER,NED
The AskAPatient dataset contains medical concepts written on social media mapped to how they are formally written in medical ontologies (SNOMED-CT and AMT).
## Citation Information
```
@inproceedings{limsopatham-collier-2016-normalising,
title = "Normalising Medical Concepts in Social Media Texts by Learning Semantic Representation",
author = "Limsopatham, Nut and
Collier, Nigel",
booktitle = "Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
month = aug,
year = "2016",
address = "Berlin, Germany",
publisher = "Association for Computational Linguistics",
url = "https://aclanthology.org/P16-1096",
doi = "10.18653/v1/P16-1096",
pages = "1014--1023",
}
```
---
语言:英语
大生物医学数据集语言:英语
许可协议:知识共享署名4.0(CC BY 4.0)
多语言属性:单语言
大生物数据集许可简称:CC_BY_4p0
正式名称:AskAPatient
项目主页:https://zenodo.org/record/55013
关联PubMed:是
公开可用:是
支持任务:
- 命名实体识别(NAMED_ENTITY_RECOGNITION)
- 命名实体消歧(NAMED_ENTITY_DISAMBIGUATION)
---
# 数据集卡片:AskAPatient
## 数据集描述
- **项目主页**:https://zenodo.org/record/55013
- **关联PubMed**:是
- **公开状态**:是
- **支持任务**:命名实体识别、命名实体消歧
AskAPatient数据集收录了社交媒体文本中的医学概念,并将其映射至医学本体SNOMED-CT与AMT中的标准表述形式。
## 引用信息
@inproceedings{limsopatham-collier-2016-normalising,
title = "基于语义表征学习的社交媒体文本医学概念规范化",
author = "纳特·利姆索帕塔姆 与 奈杰尔·科利尔",
booktitle = "第54届国际计算语言学协会年会会议录(第1卷:长论文)",
month = "8月",
year = "2016",
address = "德国柏林",
publisher = "国际计算语言学协会",
url = "https://aclanthology.org/P16-1096",
doi = "10.18653/v1/P16-1096",
pages = "1014--1023",
}
提供机构:
bigbio
原始信息汇总
数据集卡片 AskAPatient
数据集描述
- 语言: 英语
- 许可: CC BY 4.0
- 多语言性: 单语种
- 主页: https://zenodo.org/record/55013
- 是否公开: 是
- 是否在PubMed上可用: 是
- 任务: 命名实体识别 (NER), 命名实体消歧 (NED)
AskAPatient 数据集包含社交媒体上书写的医学概念,这些概念被映射到医学本体(SNOMED-CT 和 AMT)中的正式书写方式。
引用信息
@inproceedings{limsopatham-collier-2016-normalising, title = "Normalising Medical Concepts in Social Media Texts by Learning Semantic Representation", author = "Limsopatham, Nut and Collier, Nigel", booktitle = "Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)", month = aug, year = "2016", address = "Berlin, Germany", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/P16-1096", doi = "10.18653/v1/P16-1096", pages = "1014--1023", }
搜集汇总
数据集介绍

构建方式
在医学信息学领域,社交媒体文本的医学术语标准化是提升自然语言处理模型泛化能力的关键。AskAPatient数据集通过系统化方法构建,其核心流程涉及从公开社交平台采集用户生成的医疗相关表述,并借助医学本体论(如SNOMED-CT和AMT)进行概念映射。数据标注过程由专业团队执行,确保每个社交媒体中的非正式医学术语都能准确关联到标准化概念,从而形成高质量的平行语料库。
特点
该数据集在医学自然语言处理中展现出独特价值,其特点在于聚焦社交媒体语境下的医学术语变体,涵盖了丰富的非正式表达与正式医学概念之间的对应关系。数据集中每个条目均包含原始文本片段及其映射的标准化概念标识,支持命名实体识别与消歧任务。这种设计使得数据集能够有效捕捉现实世界语言使用的多样性,为模型适应非结构化医疗文本提供了重要基础。
使用方法
对于研究人员而言,AskAPatient数据集主要应用于医疗文本的标准化与概念理解任务。典型使用场景包括训练命名实体识别模型以检测社交媒体中的医疗术语,以及开发概念消歧系统来链接非正式表述到标准医学本体。数据集通常被划分为训练集、验证集和测试集,支持监督学习框架下的模型评估与比较,促进跨领域医学语言处理技术的进步。
背景与挑战
背景概述
随着社交媒体在健康信息交流中的普及,用户生成的非正式医疗文本与标准化医学术语之间的语义鸿沟日益凸显。AskAPatient数据集由Nut Limsopatham和Nigel Collier于2016年构建,旨在通过映射社交媒体中的医疗概念至SNOMED-CT和AMT等医学本体,推动医学自然语言处理中命名实体识别与消歧的研究。该数据集为医疗文本归一化提供了关键资源,促进了临床信息提取与患者健康监测领域的发展。
当前挑战
AskAPatient数据集致力于解决社交媒体医疗文本的命名实体识别与消歧挑战,其核心在于处理非正式表达与医学术语之间的语义差异。构建过程中,数据收集面临用户语言随意性、拼写错误及缩写多样性的困难;标注环节需克服概念映射的歧义性,确保社交媒体短语与标准化本体术语的精准对齐,这对标注者的医学专业知识提出了较高要求。
常用场景
经典使用场景
在医学自然语言处理领域,AskAPatient数据集为社交媒体文本中的医学术语标准化提供了关键资源。该数据集通过将社交媒体用户描述的症状或药物映射至标准医学术语体系(如SNOMED-CT和AMT),支持命名实体识别与消歧任务的研究。其经典使用场景包括训练模型识别非正式医疗表述,并准确关联至结构化医学本体,从而提升医疗信息抽取的精确度与鲁棒性。
解决学术问题
该数据集有效解决了医学文本分析中非正式语言与标准术语之间的语义鸿沟问题。通过提供社交媒体文本与标准医学术语的对应关系,它支持了命名实体消歧、术语归一化等核心研究,促进了医学信息检索与临床决策支持系统的发展。其意义在于弥合了日常语言与专业医学术语之间的差异,为健康信息学领域的语义理解奠定了数据基础。
衍生相关工作
基于AskAPatient数据集,多项经典研究工作得以衍生,推动了医学自然语言处理领域的进展。例如,Limsopatham与Collier在2016年提出的语义表示学习方法,利用该数据集实现了医疗概念的正常化,为后续的社交媒体医疗文本分析提供了基准。此外,该数据集还启发了跨语言医疗术语映射、多模态健康信息整合等研究方向,丰富了健康信息学的技术生态。
以上内容由遇见数据集搜集并总结生成



