five

Bio_ClinicalBERT embeddings for ICD10 code descriptions

收藏
DataONE2025-05-09 更新2025-11-01 收录
下载链接:
https://search.dataone.org/view/sha256:579ef543363cce5c69c653dc1c6620212b5ea2109d688b5f97c5f360107025f1
下载链接
链接失效反馈
官方服务:
资源简介:
The ICD10 text descriptions are obtained from : https://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/ICD10CM/2025-Update/ acessed on May 1, 2025 The embedding model is obtained from: https://huggingface.co/emilyalsentzer/Bio_ClinicalBERT/commit/d5892b39a4adaed74b92212a44081509db72f87b The \"pooled_output\" for the text description of the ICD10 code is provided The \"trimmed\" outputs are trimmed ICD10 codes to 3 digits. All codes which fall under the 3-digit category are averaged to get a representative embedding.

本数据集的国际疾病分类第十版(ICD10)文本描述来源于https://ftp.cdc.gov/pub/Health_Statistics/NCHS/Publications/ICD10CM/2025-Update/,数据获取时间为2025年5月1日。本数据集所使用的生物临床BERT(Bio_ClinicalBERT)嵌入模型来源于https://huggingface.co/emilyalsentzer/Bio_ClinicalBERT/commit/d5892b39a4adaed74b92212a44081509db72f87b。本数据集提供了ICD-10编码文本描述对应的池化输出(pooled_output)。“修剪后(trimmed)”输出指将ICD-10编码修剪至3位的结果。将隶属于同一3位编码类别的全部编码对应的嵌入向量取平均,以得到该类别的代表性嵌入向量。
创建时间:
2025-10-29
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作