EMBO/BLURB

Name: EMBO/BLURB
Creator: EMBO
Published: 2022-12-09 07:57:37
License: 暂无描述

Hugging Face2022-12-09 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/EMBO/BLURB

下载链接

链接失效反馈

官方服务：

资源简介：

BLURB（生物医学语言理解与推理基准）是一个用于生物医学自然语言处理的资源集合。它包含13个公开可用的数据集，涵盖6种不同的任务，如命名实体识别（NER）、关系抽取、句子相似度、文本分类和问答等。BLURB的目标是通过提供一个广泛的基准和排行榜，降低生物医学NLP的入门门槛，并加速这一重要领域的进展。数据集中的所有数据均由生物医学领域的专家标注，涵盖了从PubMed等来源的生物医学文本。

BLURB (Biomedical Language Understanding and Reasoning Benchmark) is a curated collection of resources for biomedical natural language processing. It encompasses 13 publicly available datasets covering 6 distinct task types, namely Named Entity Recognition (NER), Relation Extraction, Sentence Similarity, Text Classification, and Question Answering. The primary goal of BLURB is to lower the barrier to entry for biomedical NLP research and accelerate advancements in this critical domain by providing a comprehensive benchmark and associated leaderboard. All datasets are annotated by biomedical domain experts, with the corpus covering biomedical texts sourced from platforms including PubMed and other similar academic repositories.

提供机构：

EMBO

原始信息汇总

BLURB (Biomedical Language Understanding and Reasoning Benchmark) 数据集概述

数据集描述

数据集摘要

BLURB 是一个专注于生物医学自然语言处理（NLP）的资源集合。该数据集包括十三个公开可用的数据集，涵盖六个不同的任务，旨在通过一个广泛的基准来加速生物医学预训练策略和特定任务方法的进步。BLURB 的主要目标是降低生物医学 NLP 的入门门槛，并帮助加速这一对社会和人类具有重要意义的领域的进步。

支持的任务和排行榜

BLURB 支持的任务包括：

问答
令牌分类
句子相似性
文本分类

具体任务包括：

封闭领域问答
命名实体识别
解析
语义相似性评分
文本评分
主题分类

语言

数据集主要使用英语。

数据集结构

数据实例

数据集包含多种任务的数据实例，包括命名实体识别（NER）、PICO、关系抽取、句子相似性、文档分类和问答。

数据字段

NER: 包含 id、ner_tags 和 tokens。
Sentence Similarity: 包含 sentence 1、sentence 2 和 score。
Question Answering (PubMedQA): 包含 pubid、question、context、long_answer 和 final_decision。

数据分割

数据集根据不同任务被分割为训练集、开发集和测试集。

数据集创建

来源数据

数据集的来源主要是原始数据。

注释

所有数据集的注释均由生物医学领域的专家生成。

个人和敏感信息

数据集中不包含个人和敏感信息。

使用数据的考虑

社会影响

BLURB 旨在通过提供一个全面的基准来加速生物医学 NLP 领域的进步，对社会和人类具有积极影响。

偏见讨论

数据集的创建和注释过程中，由专家进行，以确保数据的质量和准确性。

其他已知限制

数据集的具体限制和挑战需要在实际应用中进一步评估。

附加信息

数据集管理员

数据集的管理和维护由专家团队负责。

许可信息

数据集遵循 Apache-2.0 许可证。

贡献

数据集的贡献者包括生物医学领域的专家和研究人员。

搜集汇总

数据集介绍

构建方式

在生物医学自然语言处理领域，构建综合性基准数据集对于推动模型发展至关重要。BLURB数据集通过整合多个已有生物医学NLP任务资源而形成，其构建过程体现了系统化集成策略。该数据集汇集了来自PubMed文献的十三项公开数据集，涵盖命名实体识别、关系抽取、句子相似度、文本分类及问答等六类核心任务。这些子数据集均源自权威生物医学共享任务，如BioCreative、BioNLP、SemEval和BioASQ，由领域专家进行高质量标注。构建时，研究团队统一了数据格式与评估标准，并采用宏观平均分作为主要性能指标，以避免任务间不平衡带来的偏差，从而形成一个全面且标准化的评估框架。

特点

BLURB数据集展现出多维度特点，其核心在于覆盖生物医学NLP任务的广泛性与多样性。数据集包含超过一万个数据实例，涉及化学物质、疾病、基因等多种实体类型，以及问答、文本相似度等多种理解任务。所有数据均基于英文生物医学文本，语言风格专业且术语密集。数据标注由领域专家完成，确保了标签的准确性与可靠性。特别值得注意的是，数据集设计了宏观平均评估机制，平等对待不同任务，鼓励模型发展通用生物医学语言理解能力。这种设计使得BLURB不仅是一个任务集合，更是一个促进跨任务迁移学习与模型泛化能力研究的平台。

使用方法

使用BLURB数据集时，研究人员可将其作为标准化基准来评估生物医学预训练模型或特定任务模型的性能。典型流程包括：首先从HuggingFace平台加载数据集，依据任务类型选择相应子集（如BC5-chem用于化学实体识别）。随后按照官方划分的训练集、开发集和测试集进行模型训练与调优。评估时需遵循数据集规定的指标，如实体级F1值用于命名实体识别任务，皮尔逊相关系数用于句子相似度任务。最终结果可提交至BLURB官方排行榜进行横向比较。该数据集支持端到端管道构建，便于集成到现有NLP工作流中，加速生物医学领域语言理解技术的迭代与创新。

背景与挑战

背景概述

在生物医学自然语言处理领域，长期以来缺乏一个统一且全面的基准测试平台，这在一定程度上制约了该领域的发展。2020年，由微软研究院等机构的研究人员共同创建的BLURB（Biomedical Language Understanding and Reasoning Benchmark）应运而生，旨在填补这一空白。该数据集整合了包括命名实体识别、关系抽取、句子相似性、问答系统等在内的六类核心任务，共涵盖十三个公开可用的子数据集。其核心研究问题聚焦于如何通过构建一个多任务、标准化的评估框架，来系统性地衡量和推动生物医学领域预训练语言模型及下游任务方法的发展。BLURB的建立显著降低了生物医学NLP的研究门槛，为后续模型如BioBERT等的性能评估提供了关键支撑，对加速生物信息学与临床医学的交叉研究产生了深远影响。

当前挑战

BLURB数据集所针对的生物医学自然语言处理领域，面临着专业术语密集、语义关系复杂以及数据标注高度依赖领域专家等固有挑战。具体而言，在解决如化学疾病关系抽取、基因提及识别等任务时，模型需要精确理解高度专业化的实体及其在上下文中的复杂交互，这对模型的领域适应性和推理能力提出了严峻考验。在数据集构建过程中，挑战同样显著：如何从分散且异构的原有生物医学共享任务数据中，进行高质量的整合与标准化处理，确保不同子数据集在格式、标注规范与评估指标上的一致性，是一项艰巨的工作。此外，维护一个公平、透明的排行榜以持续追踪社区进展，也需要精心的设计与长期的维护投入。

常用场景

经典使用场景

在生物医学自然语言处理领域，BLURB数据集作为综合性基准测试平台，其经典应用场景集中于评估与优化预训练语言模型在多样化任务上的性能。该数据集整合了命名实体识别、关系抽取、句子相似度计算及问答系统等六类核心任务，为研究者提供了一个统一的评估框架。通过宏平均分数机制，BLURB有效平衡了不同任务间的权重，避免了因任务数量不均导致的评估偏差，从而成为推动领域内模型泛化能力研究的关键工具。

实际应用

在实际应用层面，BLURB数据集支撑着生物医学文献挖掘与临床决策支持系统的开发。基于其构建的模型能够自动化提取化学物质、疾病基因等实体及其关联，辅助研究人员快速梳理海量文献中的关键信息。在药物发现领域，该数据集驱动的问答系统可针对特定研究问题提供证据支持，提升科学论证效率。此外，句子相似度评估功能有助于文献去重与知识图谱构建，为精准医疗与个性化治疗提供数据支撑。

衍生相关工作

围绕BLURB数据集，衍生出一系列经典研究工作，显著推动了生物医学NLP的发展。以BioBERT为代表的领域预训练模型依托该基准进行了全面性能验证，确立了领域自适应预训练的有效性。后续研究如PubMedBERT进一步优化了生物医学文本的表示学习。在任务层面，基于BLURB的多任务学习框架与元学习策略被广泛探索，旨在提升模型跨任务泛化能力。这些工作共同构建了从基准评估到方法创新的完整研究脉络。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集