Snorkel BioCorpus

github2023-08-28 更新2024-05-31 收录

下载链接：

https://github.com/HazyResearch/snorkel-biocorpus

下载链接

链接失效反馈

官方服务：

资源简介：

这是一个预处理的Snorkel格式数据集，源自PubTator，包含PubMed摘要和多种生物实体标签，如基因、疾病、化学物质、物种和突变。

This is a preprocessed dataset in Snorkel format, derived from PubTator, containing PubMed abstracts and various biological entity labels such as genes, diseases, chemicals, species, and mutations.

创建时间：

2016-11-11

原始信息汇总

Snorkel BioCorpus 数据集概述

数据集描述

初始来源：PubTator
数据格式：预处理的 Snorkel PostgreSQL 数据库 dump
文件大小：142 GB
使用方式：直接与 Snorkel 配合使用
数据库重载命令：psql snorkel-biocorpus < snorkel_biocorpus.sql

数据内容

主要来源：PubMed 摘要
实体标签：
- 基因：GNormPlus
- 疾病：DNorm
- 化学物质：tmChem
- 物种：SR4GN
- 突变：tmVar

构建数据库

重建方法：运行 install.sh 脚本
下载内容：当前 PubTator 快照（压缩后约 10GB，原始大小 32GB）
解析工具：spaCy 或 CoreNLP 解析器
解析时间：使用 16 核处理器，spaCy 解析约 XX 小时，CoreNLP 解析时间更长。

搜集汇总

数据集介绍

构建方式

Snorkel BioCorpus数据集的构建基于PubTator数据库的预处理版本，采用了Snorkel格式的数据库转储。构建过程中，首先从NCBI的FTP服务器下载了PubTator的完整快照，随后通过多核处理器进行解析，使用spaCy或CoreNLP等自然语言处理工具对数据进行深度处理。这一过程确保了数据的完整性和可用性，为后续的生物医学研究提供了坚实的基础。

特点

Snorkel BioCorpus数据集涵盖了从19XX年至2017年的PubMed摘要，包含了丰富的生物医学实体标签，如基因、疾病、化学物质、物种和突变等。这些实体标签通过GNormPlus、DNorm、tmChem、SR4GN和tmVar等工具进行标注，确保了数据的准确性和专业性。数据集以142GB的PostgreSQL数据库形式提供，便于直接与Snorkel框架集成使用。

使用方法

使用Snorkel BioCorpus数据集时，用户可以通过下载预处理的PostgreSQL数据库转储文件，直接加载到Snorkel环境中。加载过程简单，只需使用`psql snorkel-biocorpus < snorkel_biocorpus.sql`命令即可完成。此外，用户还可以通过运行`install.sh`脚本，从NCBI的FTP服务器下载最新的PubTator快照，并自行解析和构建数据库，以满足特定的研究需求。

背景与挑战

背景概述

Snorkel BioCorpus数据集是基于PubTator数据库构建的生物医学文本数据集，旨在为生物医学领域的自然语言处理研究提供丰富的标注数据。该数据集由Snorkel团队主导开发，主要依托于PubMed摘要数据，涵盖了从19XX年至2017年的文献信息。其核心研究问题在于通过自动化标注技术，高效提取生物医学文本中的关键实体，如基因、疾病、化学物质、物种和突变等。该数据集的发布为生物医学文本挖掘、信息抽取和知识图谱构建等领域的研究提供了重要支持，推动了相关技术的进步。

当前挑战

Snorkel BioCorpus数据集在构建过程中面临多重挑战。首先，生物医学文本的复杂性和多样性使得实体标注的准确性和一致性难以保证，尤其是在处理基因、疾病等专业术语时，标注的歧义性和模糊性显著增加。其次，数据集的规模庞大，原始PubTator数据库的压缩文件达到10GB，解压后更是高达32GB，这对数据存储和计算资源提出了较高要求。此外，数据预处理和解析过程耗时较长，尤其是在使用spaCy或CoreNLP等自然语言处理工具时，多核并行处理仍需数小时甚至更长时间。这些挑战不仅影响了数据集的构建效率，也对后续的研究应用提出了更高的技术要求。

常用场景

经典使用场景

Snorkel BioCorpus数据集在生物医学文本挖掘领域具有广泛的应用，特别是在基因、疾病、化学物质、物种和突变等实体的自动标注任务中。研究人员利用该数据集进行自然语言处理模型的训练和评估，尤其是在生物医学文献的实体识别和关系抽取任务中，该数据集提供了丰富的标注信息，极大地提升了模型的性能。

衍生相关工作

Snorkel BioCorpus数据集衍生了许多经典的研究工作，特别是在生物医学文本挖掘和自然语言处理领域。基于该数据集，研究人员开发了多种先进的实体识别和关系抽取模型，如基于深度学习的生物医学命名实体识别系统。此外，该数据集还被用于构建生物医学知识图谱，推动了生物医学信息学的发展。

数据集最近研究