findzebra/corpus
收藏Hugging Face2022-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/findzebra/corpus
下载链接
链接失效反馈官方服务:
资源简介:
FindZebra语料库是一个包含30,658篇关于罕见疾病的精选文章的集合,这些文章来自GARD、GeneReviews、Genetics Home Reference、OMIM、Orphanet和Wikipedia。每篇文章都通过一个概念唯一标识符(CUI)进行引用。数据预处理过程包括将原始HTML内容转换为纯文本,并忽略链接、图片、表格和强调等元素。
提供机构:
findzebra
原始信息汇总
FindZebra Corpus 概述
数据集描述
- 数据来源: 数据集包含30,658篇关于罕见疾病的精选文章,这些文章来源于GARD、GeneReviews、Genetics Home Reference、OMIM、Orphanet和Wikipedia。
- 标识系统: 每篇文章都关联有一个概念唯一标识符(CUI)。
数据预处理
- 预处理方法: 原始HTML内容通过特定代码进行处理,以提取文本信息。
- 处理细节:
- 使用
html2text库进行HTML到文本的转换。 - 忽略链接、图像、表格和强调文本。
- 设置文本宽度为无限大,确保所有内容被处理。
- 使用



