BiomedSQL

github2025-05-24 更新2025-05-29 收录

下载链接：

https://github.com/NIH-CARD/biomedsql

下载链接

链接失效反馈

官方服务：

资源简介：

BiomedSQL是一个用于科学推理的生物医学知识库的文本到SQL基准测试数据集。

BiomedSQL is a text-to-SQL benchmark dataset for scientific reasoning in the field of biomedical knowledge bases.

创建时间：

2025-05-14

原始信息汇总

BiomedSQL数据集概述

数据集简介

名称：BiomedSQL
类型：文本到SQL转换基准数据集
领域：生物医学知识库科学推理
工作流：支持评估LLMs在生物医学领域的文本到SQL转换能力

数据集获取

托管平台：HuggingFace
访问地址：https://huggingface.co/datasets/NIH-CARD/BiomedSQL
数据格式：包含基准数据集和相关数据库表格数据

数据库支持

即将提供从parquet文件创建BigQuery数据库的代码
评审人员将获得预配置的config/service_account.json文件用于数据库访问

实验要求

硬件需求

meta-llama/Llama-3.1-70B-Instruct：需要3个NVIDIA 80GB A100 GPU
Qwen/Qwen2.5-Coder-32B-Instruct：需要2个NVIDIA 80GB A100 GPU
Qwen/Qwen2.5-Coder-14B-Instruct：需要2个NVIDIA 80GB A100 GPU

云服务需求

AzureOpenAI（需gpt-4o、gpt-4o-mini和gpt-o3-mini端点）
AzureAI（需Meta-Llama-405B端点）
Gemini（需gemini-2.0-flash和gemini-2.0-flash-lite）
OpenAI（需通用completions() API）
Anthtropic（需claude-3-7-sonnet）
HuggingFace（需访问受保护的Meta-Llama仓库）

实验结果

性能表现

模型名称	执行准确率	响应质量率
GPT-o3-mini-baseline	53.5%	73.3%
GPT-o3-mini-combo	59.0%	77.8%
BMSQL-GPT-o3-mini	62.6%	84.6%

许可信息

许可证类型：Apache License (Version 2.0)

搜集汇总

数据集介绍

构建方式

BiomedSQL数据集构建于生物医学知识库的文本到SQL转换任务，通过整合多源异构生物医学数据形成结构化知识库。该数据集采用分布式构建策略，首先从权威生物医学文献和数据库中提取实体关系，随后通过领域专家标注构建SQL查询模板，最终形成包含复杂科学推理问题的语料库。数据预处理阶段采用自动化流水线进行实体识别和关系抽取，确保数据质量与领域相关性。

特点

该数据集显著特点在于其专业领域深度与复杂查询结构，涵盖基因表达、蛋白质互作等生物医学核心主题。查询语句设计体现多层次科学推理，包含嵌套子查询、多表连接等高级SQL特性。基准测试集特别设计了执行准确率和响应质量率双指标评估体系，并附有完整的BigQuery数据库架构，支持端到端的文本到SQL系统验证。数据分布均衡覆盖临床决策支持、药物发现等典型应用场景。

使用方法

使用BiomedSQL需配置多平台LLM服务环境，包括AzureOpenAI、Gemini等API接入。实验流程通过模块化脚本实现，运行run_llm_experiments.py可启动核心SQL生成测试，config/llm_config.yaml文件支持灵活调整测试模型。对于计算资源受限场景，可通过注释配置文件中huggingface模型项实现CPU模式运行。结果分析模块自动生成可视化图表，输出目录结构清晰便于学术论文结果复现。数据集文件采用Parquet列式存储格式，兼容主流大数据处理框架。

背景与挑战

背景概述

BiomedSQL是由NIH-CARD团队开发的一个专注于生物医学领域的文本到SQL转换基准数据集，旨在评估大型语言模型在生物医学知识库上的科学推理能力。该数据集结合了生物医学领域的专业知识与自然语言处理技术，为研究人员提供了一个标准化的测试平台，以探索如何更有效地将自然语言查询转换为结构化SQL查询。BiomedSQL的创建标志着生物医学信息检索与自然语言处理交叉领域的重要进展，为提升生物医学数据的可访问性和利用率提供了新的研究范式。

当前挑战

BiomedSQL面临的挑战主要集中在两个方面：领域问题的复杂性和数据构建的技术难度。在领域问题方面，生物医学数据的专业性和复杂性使得自然语言到SQL的转换极具挑战性，需要模型具备深厚的领域知识理解能力。在数据构建过程中，整合多样化的生物医学数据源、确保数据的准确性和一致性，以及处理大规模知识库的复杂性，都是构建团队需要克服的关键技术难题。此外，评估不同大型语言模型在该数据集上的表现，也对计算资源和实验设计提出了较高要求。

常用场景

经典使用场景

在生物医学知识库的智能检索与分析领域，BiomedSQL数据集为文本到SQL转换技术提供了标准化的评估基准。该数据集通过模拟真实场景下的自然语言查询与结构化数据库交互过程，成为测试大型语言模型在生物医学专业领域语义理解与逻辑推理能力的黄金标准。研究者常利用其丰富的临床术语、药物相互作用和基因表达数据，验证模型将非结构化医学问题转化为精确SQL查询的能力。

衍生相关工作

基于BiomedSQL的评估体系，衍生出包括BMSQL系统在内的一系列创新研究。Meta-Llama-405B等开源模型在该数据集上的性能优化推动了领域适应技术的突破，Qwen系列模型则通过该基准验证了其在生物医学编码任务的优越性。这些工作共同构成了医疗文本到SQL转换技术的演进脉络。

数据集最近研究