qanastek/Biosses-BLUE

Name: qanastek/Biosses-BLUE
Creator: qanastek
Published: 2022-11-05 23:23:58
License: 暂无描述

Hugging Face2022-11-05 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/qanastek/Biosses-BLUE

下载链接

链接失效反馈

官方服务：

资源简介：

BIOSSES是一个用于生物医学句子相似度估计的基准数据集。该数据集包含100对句子，每对句子选自TAC（文本分析会议）生物医学摘要跟踪训练数据集中的生物医学领域文章。句子对由五位不同的人类专家评估其相似度，并给出从0（无关系）到4（等价）的分数。在原始论文中，五位人类注释者给出的分数的平均值被用作黄金标准。使用皮尔逊相关系数作为评估指标，来衡量模型估计的分数与黄金标准分数之间的相关性。

BIOSSES is a benchmark dataset for biomedical sentence similarity estimation. This dataset contains 100 sentence pairs, each selected from biomedical articles in the training dataset of the TAC (Text Analysis Conference) biomedical summarization track. Each sentence pair was evaluated for similarity by five distinct human annotators, with scores ranging from 0 (no relation) to 4 (equivalent). In the original paper, the average score given by the five human annotators was used as the gold standard. The Pearson correlation coefficient was employed as the evaluation metric to measure the correlation between the similarity scores estimated by the model and the gold standard scores.

提供机构：

qanastek

原始信息汇总

数据集概述

名称: BIOSSES

语言: 英语

许可证: GPL-3.0

多语言性: 单语

大小: 小于1K

源数据集: 原始数据

任务类别: 文本分类

任务ID:

文本评分
语义相似度评分

数据集结构

数据实例

sentence1: 字符串
sentence2: 字符串
score: 浮点数，范围从0（无关系）到4（等价）

数据分割

训练集: 100个实例，总字节数32783

数据集创建

源数据

来源: TAC (Text Analysis Conference) Biomedical Summarization Track Training Dataset

注释

生成方式: 专家生成
注释过程: 五个不同的人类专家评估句子对的相似性，并给出0到4的分数。分数范围根据SemEval 2012 Task 6的STS指南描述。

许可证信息

许可证: The GNU Common Public License v.3.0

引用信息

bibtex @article{10.1093/bioinformatics/btx238, author = {Soğancıoğlu, Gizem and Öztürk, Hakime and Özgür, Arzucan}, title = "{BIOSSES: a semantic sentence similarity estimation system for the biomedical domain}", journal = {Bioinformatics}, volume = {33}, number = {14}, pages = {i49-i58}, year = {2017}, month = {07}, abstract = "{...}", issn = {1367-4803}, doi = {10.1093/bioinformatics/btx238}, url = {https://doi.org/10.1093/bioinformatics/btx238}, eprint = {https://academic.oup.com/bioinformatics/article-pdf/33/14/i49/25157316/btx238.pdf}, }

搜集汇总

数据集介绍

构建方式

在生物医学文本挖掘领域，构建高质量的语义相似度评估基准对推动自然语言处理技术发展至关重要。BIOSSES数据集的构建过程体现了严谨的学术规范，其源数据选自TAC生物医学摘要追踪训练数据集中的引用句对，确保了语料的专业性与代表性。通过五位领域专家对100个句对进行独立标注，采用0至4分的连续尺度评估语义相似度，并以五位专家评分的均值作为黄金标准，有效降低了主观偏差，为后续模型评估提供了可靠依据。

使用方法

在生物信息学研究中，BIOSSES数据集主要服务于语义相似度计算模型的训练与评估。研究者可通过加载标准化数据分割方案，将64个样本用于训练，16个用于验证，20个用于测试，系统评估模型性能。评估时需计算模型预测分数与黄金标准间的皮尔逊相关系数，并参照Evans分级标准解读结果强度。该数据集兼容多种自然语言处理框架，支持嵌入表示学习、本体语义匹配等方法的对比实验，为生物医学文本挖掘技术的迭代优化提供了基准平台。

背景与挑战

背景概述

在生物医学信息学领域，文本数据的快速增长催生了自然语言处理技术的深度应用，其中句子语义相似度计算是信息检索与文本摘要等任务的核心环节。BIOSSES数据集由博阿齐奇大学的研究团队于2017年创建，旨在构建一个专门针对生物医学领域的句子相似度评估基准。该数据集从TAC生物医学摘要跟踪训练数据集中精选了100对句子，并由五位专家进行人工标注，评分范围从0到4，以均值作为黄金标准。这一数据集的推出，为生物医学文本处理提供了重要的评估工具，推动了领域内语义相似度计算方法的发展，尤其在提升模型对专业术语和复杂语境的理解方面具有显著影响力。

当前挑战

BIOSSES数据集所针对的生物医学句子相似度计算问题，面临领域专业性强、术语密集和语境复杂等挑战，要求模型能精准捕捉深层次语义关联，而非表面词汇匹配。在构建过程中，数据采集受限于生物医学文献的可用性与代表性，需从有限来源中筛选高质量句子对；标注环节则依赖多位专家的一致性评判，尽管标注者间相关性较高，但仍需克服主观差异带来的噪声，确保评分标准的可靠性与稳定性。此外，数据集规模较小，仅包含100个实例，可能限制模型的泛化能力，对后续研究提出数据扩展与多样性增强的需求。

常用场景

经典使用场景

在生物医学自然语言处理领域，语义相似性评估是信息检索与知识整合的基础环节。BIOSSES数据集作为该领域的基准测试集，其经典应用场景集中于训练和评估生物医学文本的语义相似度计算模型。研究者通过该数据集构建的监督回归模型，能够精准捕捉专业术语间的语义关联，为后续的文本挖掘任务提供可靠的特征表示。该数据集的小规模特性使其成为模型快速验证与迭代的理想选择，尤其在计算资源受限的研究环境中展现出独特价值。

解决学术问题

生物医学文献的爆炸式增长使得传统通用领域语义相似度计算方法面临专业术语覆盖不足的困境。BIOSSES数据集通过构建专家标注的生物医学句子对，有效解决了领域适应性问题，为评估专门化语义表示模型提供了黄金标准。该数据集推动研究者开发融合本体知识与分布式向量表示的新型算法，显著提升了生物医学文本理解的准确度，填补了领域特定评估资源的空白，成为连接计算语言学与生物信息学的重要桥梁。

实际应用

在现实世界的生物医学信息系统中，BIOSSES数据集支撑着多项关键应用。临床决策支持系统利用其训练的相似度模型，能够快速匹配病例报告与医学文献中的相关描述；科研文献检索平台通过语义相似度计算，实现跨数据库的精准知识关联；自动化摘要系统则依赖该数据集优化的算法，识别文献中语义等效的陈述句以提升摘要质量。这些应用显著加速了医学知识的传播效率，为精准医疗和药物研发提供了智能化的文本处理基础。

数据集最近研究