bigbio/n2c2_2008
收藏Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/n2c2_2008
下载链接
链接失效反馈官方服务:
资源简介:
n2c2 2008 Obesity数据集包含来自Partners HealthCare Research Patient Data Repository的出院摘要。这些数据选自自2004年12月1日以来因肥胖或糖尿病住院的超重或糖尿病患者的出院摘要。数据经过半自动去标识化处理,所有私人健康信息被替换为合成标识符。数据集由马萨诸塞州总医院体重中心的两位肥胖专家进行注释,专家们根据出院摘要中的明确信息对每种疾病进行分类,分类包括存在、不存在、可疑或未提及。此外,专家们还根据直觉和判断对疾病进行分类。数据集主要用于文本分类任务。
The n2c2 2008 Obesity dataset comprises discharge summaries obtained from the Partners HealthCare Research Patient Data Repository. These data are selected from discharge records of overweight or diabetic patients who were hospitalized for obesity or diabetes since December 1, 2004. The dataset has undergone semi-automated de-identification, where all protected health information (PHI) has been replaced with synthetic identifiers. Two obesity specialists from the Weight Center at Massachusetts General Hospital annotated the dataset. The specialists categorized each disease based on explicit information present in the discharge summaries, with the classification labels including present, absent, questionable, or not mentioned. Furthermore, the specialists also leveraged their clinical intuition and judgment during the classification process. This dataset is primarily utilized for text classification tasks.
提供机构:
bigbio
原始信息汇总
数据集概述
基本信息
- 语言: 英语
- 许可证: 其他
- 多语言性: 单语种
- 许可证简称: DUA
- 名称: n2c2 2008 Obesity
- 主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
- 是否公开: 否
- 是否包含PubMed数据: 是
- 任务类型: 文本分类
数据集描述
- 数据来源: 来自Partners HealthCare Research Patient Data Repository的出院总结。
- 数据筛选: 选择超重或糖尿病患者的出院总结,这些患者自2004年12月1日起因肥胖或糖尿病住院。
- 数据处理: 半自动去标识化,所有私人健康信息被合成标识符替换。
- 数据标注: 由两位来自Massachusetts General Hospital Weight Center的肥胖专家进行标注。
- 标注任务: 专家根据出院总结中的明确记录信息,将每种疾病分类为“存在”、“不存在”、“可疑”或“未提及”。此外,专家还需运用直觉和判断对信息进行分类。
搜集汇总
数据集介绍

背景与挑战
背景概述
n2c2_2008数据集是n2c2 2008肥胖挑战赛的数据集,包含来自医院出院摘要的去标识化文本数据,专注于肥胖和相关疾病。数据由专家标注,用于文本分类任务(如疾病状态判断),适用于医疗信息学研究。
以上内容由遇见数据集搜集并总结生成



