five

bigbio/n2c2_2006_smokers

收藏
Hugging Face2022-12-22 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/bigbio/n2c2_2006_smokers
下载链接
链接失效反馈
官方服务:
资源简介:
n2c2 2006吸烟状态挑战赛的数据集来源于Partners HealthCare的出院摘要,这些摘要经过去标识化、分词、分句、转换为XML格式,并分为训练集和测试集。两位肺科医生根据记录中明确陈述的吸烟相关事实对每条记录进行了吸烟状态的标注,将患者记录分类为五种可能的吸烟状态:过去吸烟者、当前吸烟者、吸烟者、非吸烟者和未知。总共使用了502份去标识化的医疗出院记录。
提供机构:
bigbio
原始信息汇总

数据集概述

基本信息

  • 语言: 英语
  • 许可证: 其他 (DUA)
  • 多语言性: 单语
  • 数据集名称: n2c2 2006 Smoking Status
  • 主页: https://portal.dbmi.hms.harvard.edu/projects/n2c2-nlp/
  • 是否公开: 否
  • 是否包含PubMed数据: 否

任务描述

  • 任务类型: 文本分类 (TEXT_CLASSIFICATION)

数据集详情

  • 数据来源: 来自Partners HealthCare的出院总结
  • 处理步骤: 去标识化、分词、句子分割、转换为XML格式,并分为训练集和测试集
  • 标注过程: 两位肺科医生根据记录中明确提到的吸烟相关事实,对患者吸烟状态进行标注
  • 分类类别: 过去吸烟者、当前吸烟者、吸烟者、非吸烟者和未知
  • 记录数量: 502份去标识化的医疗出院记录

引用信息

@article{uzuner2008identifying, author = { Uzuner, Ozlem and Goldstein, Ira and Luo, Yuan and Kohane, Isaac }, title = {Identifying Patient Smoking Status from Medical Discharge Records}, journal = {Journal of the American Medical Informatics Association}, volume = {15}, number = {1}, pages = {14-24}, year = {2008}, month = {01}, url = {https://doi.org/10.1197/jamia.M2408}, doi = {10.1136/amiajnl-2011-000784}, eprint = {https://academic.oup.com/jamia/article-pdf/15/1/14/2339646/15-1-14.pdf} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作