findzebra/corpus

Name: findzebra/corpus
Creator: findzebra
Published: 2022-10-25 09:58:33
License: 暂无描述

Hugging Face2022-10-25 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/findzebra/corpus

下载链接

链接失效反馈

官方服务：

资源简介：

FindZebra语料库是一个包含30,658篇关于罕见疾病的精选文章的集合，这些文章来自GARD、GeneReviews、Genetics Home Reference、OMIM、Orphanet和Wikipedia。每篇文章都通过一个概念唯一标识符（CUI）进行引用。数据预处理过程包括将原始HTML内容转换为纯文本，并忽略链接、图片、表格和强调等元素。

提供机构：

findzebra

原始信息汇总

FindZebra Corpus 概述

数据集描述

数据来源: 数据集包含30,658篇关于罕见疾病的精选文章，这些文章来源于GARD、GeneReviews、Genetics Home Reference、OMIM、Orphanet和Wikipedia。
标识系统: 每篇文章都关联有一个概念唯一标识符（CUI）。

数据预处理

预处理方法: 原始HTML内容通过特定代码进行处理，以提取文本信息。
处理细节:
- 使用html2text库进行HTML到文本的转换。
- 忽略链接、图像、表格和强调文本。
- 设置文本宽度为无限大，确保所有内容被处理。

5,000+

优质数据集

54 个

任务类型

进入经典数据集