bigbio/biosses

Name: bigbio/biosses
Creator: bigbio
Published: 2022-12-22 15:32:58
License: 暂无描述

Hugging Face2022-12-22 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/bigbio/biosses

下载链接

链接失效反馈

官方服务：

资源简介：

--- language: - en bigbio_language: - English license: gpl-3.0 multilinguality: monolingual bigbio_license_shortname: GPL_3p0 pretty_name: BIOSSES homepage: https://tabilab.cmpe.boun.edu.tr/BIOSSES/DataSet.html bigbio_pubmed: false bigbio_public: true bigbio_tasks: - SEMANTIC_SIMILARITY --- # Dataset Card for BIOSSES ## Dataset Description - **Homepage:** https://tabilab.cmpe.boun.edu.tr/BIOSSES/DataSet.html - **Pubmed:** True - **Public:** True - **Tasks:** STS BIOSSES computes similarity of biomedical sentences by utilizing WordNet as the general domain ontology and UMLS as the biomedical domain specific ontology. The original paper outlines the approaches with respect to using annotator score as golden standard. Source view will return all annotator score individually whereas the Bigbio view will return the mean of the annotator score. ## Citation Information ``` @article{souganciouglu2017biosses, title={BIOSSES: a semantic sentence similarity estimation system for the biomedical domain}, author={Soğancıoğlu, Gizem, Hakime Öztürk, and Arzucan Özgür}, journal={Bioinformatics}, volume={33}, number={14}, pages={i49--i58}, year={2017}, publisher={Oxford University Press} } ```

language: - 英语 bigbio_language: - 英语 license: GPL-3.0 multilinguality: 单语种 bigbio_license_shortname: GPL_3p0 pretty_name: BIOSSES homepage: https://tabilab.cmpe.boun.edu.tr/BIOSSES/DataSet.html bigbio_pubmed: 否 bigbio_public: 是 bigbio_tasks: - 语义相似度（SEMANTIC_SIMILARITY） # BIOSSES数据集卡片 ## 数据集说明 - **项目主页**: https://tabilab.cmpe.boun.edu.tr/BIOSSES/DataSet.html - **关联PubMed**: 是 - **公开状态**: 是 - **任务**: 语义文本相似度（STS） BIOSSES以词网（WordNet）作为通用领域本体、统一医学语言系统（UMLS）作为生物医学领域专属本体，开展生物医学句子间的相似度计算工作。该数据集的原创研究论文详述了以标注者评分为金标准的相关研究方案。源视图将返回所有标注者的独立评分，而BigBio视图则会返回标注者评分的均值。 ## 引用信息 @article{souganciouglu2017biosses, title={BIOSSES：面向生物医学领域的语义句子相似度评估系统}, author={Soğancıoğlu, Gizem, Hakime Öztürk, and Arzucan Özgür}, journal={《生物信息学》(Bioinformatics)}, volume={33}, number={14}, pages={i49--i58}, year={2017}, publisher={牛津大学出版社} }

提供机构：

bigbio

原始信息汇总

数据集概述

基本信息

名称: BIOSSES
语言: 英语
许可证: GPL_3p0 (GPL-3.0)
多语言性: 单语种

数据集描述

主页: https://tabilab.cmpe.boun.edu.tr/BIOSSES/DataSet.html
是否公开: 是
任务: 语义相似性 (SEMANTIC_SIMILARITY)

数据集用途

BIOSSES用于计算生物医学句子之间的相似性，使用WordNet作为一般领域本体，UMLS作为生物医学领域特定本体。数据集通过比较标注者的分数来确定句子的相似性，源视图返回所有标注者的分数，而Bigbio视图返回标注者分数的平均值。

引用信息

@article{souganciouglu2017biosses, title={BIOSSES: a semantic sentence similarity estimation system for the biomedical domain}, author={Soğancıoğlu, Gizem, Hakime Öztürk, and Arzucan Özgür}, journal={Bioinformatics}, volume={33}, number={14}, pages={i49--i58}, year={2017}, publisher={Oxford University Press} }

搜集汇总

数据集介绍

构建方式

在生物医学信息学领域，构建高质量的语义相似性评估数据集对于推动自然语言处理技术的发展至关重要。BIOSSES数据集的构建过程体现了严谨的科学方法，其核心在于通过专家标注的方式确立黄金标准。研究团队精心挑选了100对生物医学句子，涵盖多样化的主题与复杂度，每对句子均由五位领域专家独立进行相似性评分，评分范围设定为0至4分，以此确保标注的可靠性与一致性。这种基于人工标注的构建策略，为后续的自动化语义相似性评估模型提供了坚实的基准。

特点

BIOSSES数据集在生物医学文本处理领域展现出鲜明的特色。其首要特征在于专注于生物医学领域的句子级语义相似性评估，这弥补了通用领域数据集的不足。数据集不仅提供了原始的、未经聚合的专家独立评分，还计算了评分的平均值，为研究者提供了多角度的分析视角。此外，数据集规模适中但标注质量极高，所有句子对均来源于真实的生物医学文献，确保了数据的领域代表性与生态效度，使其成为验证和比较不同语义相似性计算模型的理想测试平台。

使用方法

该数据集为生物医学文本语义相似性研究提供了标准化的评估框架。使用者可通过HuggingFace平台便捷地加载数据集，并根据研究需求选择‘source’视图以获取每位专家的原始评分进行深入分析，或选择‘bigbio’视图直接使用平均评分作为模型训练与评估的基准。典型的应用流程包括：将句子对输入待评估的语义相似性模型，生成预测分数，随后与数据集提供的专家评分（平均分或个体分）进行比较，通过斯皮尔曼等级相关系数等指标量化模型性能，从而推动生物医学自然语言处理技术的进步。

背景与挑战

背景概述

在生物医学信息学领域，文本语义相似性评估是支撑知识抽取与问答系统等应用的核心任务。BIOSSES数据集由土耳其博阿齐奇大学TABILab研究团队于2017年创建，旨在为生物医学句子对相似度计算提供高质量的人工标注基准。该数据集通过整合通用领域本体WordNet与生物医学专用本体UMLS，构建了一个系统性的语义评估框架，有效推动了生物医学自然语言处理中语义表示与相似性度量方法的研究，成为该领域重要的评估资源之一。

当前挑战

BIOSSES数据集致力于解决生物医学领域句子级语义相似性计算的挑战，其核心难点在于生物医学术语的专业性、多义性以及句法结构的复杂性，这些因素使得通用领域的相似性模型往往难以直接适用。在构建过程中，研究团队面临的主要挑战包括：如何设计可靠的人工标注流程以确保评分的一致性，以及如何有效融合领域本体与通用语义资源来捕捉生物医学文本特有的语义关联。这些挑战促使数据集在标注质量与语义建模深度上设立了较高标准。

常用场景

经典使用场景

在生物医学信息学领域，文本语义相似性评估是支撑知识整合与信息检索的核心任务。BIOSSES数据集通过提供100对经过专家标注的句子对，为研究者构建了一个标准化的评测平台。该数据集常被用于训练和验证基于深度学习的语义相似性模型，如BERT或BioBERT的变体，以量化生物医学文本之间的语义关联度，从而推动自动摘要、文献归类等下游应用的发展。

衍生相关工作

围绕BIOSSES数据集，学术界已衍生出一系列经典研究工作。例如，多项研究利用该数据集对预训练语言模型如BioBERT、SciBERT进行微调，以提升其在生物医学文本上的语义理解能力。此外，一些工作探索了结合图神经网络与本体知识的混合模型，进一步优化了相似性计算的性能。这些衍生工作不仅巩固了BIOSSES作为基准数据集的地位，也持续推动了生物医学文本挖掘技术的创新与发展。

数据集最近研究