Bio-benchmark

Name: Bio-benchmark
Creator: 香港中文大学, 香港大学, 上海人工智能实验室
Published: 2025-03-06 10:01:59
License: 暂无描述

arXiv2025-03-06 更新2025-03-11 收录

下载链接：

http://arxiv.org/abs/2503.04013v1

下载链接

链接失效反馈

官方服务：

资源简介：

Bio-benchmark是由香港中文大学、香港大学和上海人工智能实验室共同构建的生物信息学基准数据集，包含30个关键任务，涵盖蛋白质、RNA、药物、电子健康记录和传统中医药等多个领域。该数据集旨在评估大型语言模型在生物信息学自然语言处理任务中的性能，涉及序列和文本数据，通过0-shot和few-shot Chain-of-Thought设置进行评估，以测试模型的内在能力。数据集的创建过程包括数据清洗、去重和采样等步骤，确保了数据的质量和多样性。该数据集的应用领域是生物信息学，旨在解决各种生物任务中的问题，如蛋白质结构预测、药物设计等。

Bio-benchmark is a bioinformatics benchmark dataset jointly developed by The Chinese University of Hong Kong, The University of Hong Kong, and the Shanghai AI Laboratory. It consists of 30 key tasks spanning multiple domains including proteins, RNA, drugs, electronic health records (EHRs), and traditional Chinese medicine (TCM). This dataset is designed to evaluate the performance of large language models (LLMs) on bioinformatics natural language processing tasks involving both sequence and textual data. Evaluations are conducted under zero-shot and few-shot Chain-of-Thought settings to test the intrinsic capabilities of the models. The dataset creation process includes steps such as data cleaning, deduplication and sampling to ensure the quality and diversity of the data. Targeting the field of bioinformatics, this dataset aims to address challenges in various biological tasks such as protein structure prediction and drug design.

提供机构：

香港中文大学, 香港大学, 上海人工智能实验室

创建时间：

2025-03-06

搜集汇总

数据集介绍

构建方式

Bio-benchmark数据集是通过精心策划的提示（prompting）方法构建的，旨在评估大型语言模型（LLMs）在生物信息学自然语言处理（NLP）任务中的性能。数据集涵盖了30个关键的生物信息学任务，包括蛋白质、RNA、药物、电子健康记录和传统中药等领域。数据集构建时采用了多种数据源，包括蛋白质数据银行（PDB）、RNAcentral和电子健康记录数据库（如MIMIC），并对数据进行去重、长度限制和随机采样等预处理步骤，以确保数据的多样性和代表性。此外，数据集还考虑了不同物种和家族序列的分布，以平衡数据的代表性。

使用方法

Bio-benchmark数据集的使用方法如下：1）评估LLMs：通过在0-shot和few-shot Chain-of-Thought（CoT）设置下评估LLMs在30个生物信息学任务上的性能，以揭示LLMs的内在能力；2）提取答案：使用BioFinder工具从LLMs的响应中提取关键答案，以提高提取准确性；3）分析和总结：基于综合基准结果，分析和总结适合当前LLMs的生物信息学任务，并提出针对特定任务的提示工程策略以优化LLMs的性能。

背景与挑战

背景概述

Bio-benchmark 是一个全面的语言模型基准测试框架，旨在评估大型语言模型（LLMs）在生物信息学自然语言处理（NLP）任务中的性能。该数据集由来自香港中文大学和香港大学的团队创建，并于 2025 年首次提出。Bio-benchmark 包含了 30 个关键的生物信息学任务，涵盖了蛋白质、RNA、药物、电子健康记录和传统中药等多个领域。该数据集的创建旨在解决当前基准测试在评估 LLMs 在多样化任务中的性能方面的不足，并提供一个全面的评估框架来揭示 LLMs 在生物信息学任务中的内在能力。Bio-benchmark 的提出对生物信息学领域产生了重要影响，为研究人员提供了一个评估和比较不同 LLMs 性能的平台，并推动了针对生物信息学应用的大型语言模型的发展。

当前挑战

Bio-benchmark 数据集在评估 LLMs 在生物信息学任务中的性能时面临一些挑战。首先，现有的基准测试方法往往针对小规模模型设计，无法有效评估具有扩展假设空间的大型 LLMs。其次，现有的验证数据集往往包含重叠数据，需要高质量、干净的基准集。第三，尽管开发 LLMs 用于多样化任务的需求日益增长，但专门用于评估这些全面模型的基准测试仍然有限。此外，LLMs 生成的文本输出通常嵌入关键答案，但目前缺乏有效的提取方法。为了解决这些问题，研究人员提出了 BioFinder 工具，以提高从 LLM 响应中提取答案的准确性。Bio-benchmark 的结果表明，当前 LLMs 在解决一些生物信息学任务方面表现出色，但在其他任务上仍有改进空间。未来研究需要进一步优化提示工程策略，以提高 LLMs 在特定任务上的效率和精度。

常用场景

经典使用场景

Bio-benchmark数据集主要用于评估大型语言模型（LLMs）在生物信息学自然语言处理（NLP）任务上的性能。该数据集包含30个关键的生物信息学任务，涵盖了蛋白质、RNA、药物、电子健康记录和中药等多个领域。通过0-shot和few-shot Chain-of-Thought（CoT）设置，研究人员可以评估LLMs在不进行微调的情况下解决生物信息学问题的内在能力。

解决学术问题

Bio-benchmark数据集解决了现有基准在评估LLMs跨多个任务性能方面的局限性。该数据集提供了一个全面的评估框架，用于衡量LLMs在生物信息学领域的适应性和准确性。此外，数据集中的BioFinder工具提高了从LLMs响应中提取答案的准确性，这对于评估LLMs的性能至关重要。

实际应用

Bio-benchmark数据集的实际应用场景包括药物设计、疾病诊断、生物医学问答和中药问答等。该数据集可以帮助研究人员更好地理解LLMs在不同生物信息学任务中的表现，从而为开发更强大的生物信息学应用提供指导。例如，通过评估LLMs在药物设计任务中的性能，研究人员可以更好地预测药物分子对特定细菌的效力。

数据集最近研究