LLM-benchmark-dataset

github2025-05-13 更新2025-05-21 收录

下载链接：

https://github.com/MelnychenkoM/LLM-benchmark-dataset

下载链接

链接失效反馈

官方服务：

资源简介：

该数据集汇编了从科学文献中整理的蛋白质-配体结合口袋信息。数据以两种主要格式提供：汇总的Excel电子表格和每篇出版物的详细JSON文件。

This dataset compiles information on protein-ligand binding pockets curated from scientific literature. The data are provided in two primary formats: a consolidated Excel spreadsheet and detailed JSON files for each publication.

创建时间：

2025-05-06

原始信息汇总

LLM-benchmark-dataset 数据集概述

数据集背景

关联论文：《Leveraging Large Language Models for Literature-Driven Prioritization of Protein Binding Pockets》
用途：支持文献驱动的蛋白质结合口袋优先级排序研究

数据内容

核心数据文件

Excel汇总表
- pockets.xlsx（主索引表）
  - 关键字段：paper_id, paper_name, DOI, target, pocket_id, pocket_description, ligands, folder_name
- amino_acids.xlsx（氨基酸残基关联表）
  - 关键字段：paper_id, target, pocket_id, amino_acid
PDB结构文件
- 每个生物靶标包含1-3个PDB结构文件

数据格式

每篇文献对应详细JSON文件
数据同步工具支持JSON与Excel格式互转

数据处理工具

同步脚本 `dataset.py`

功能：
1. Excel→JSON同步：--update_pockets_excel_to_json
2. JSON→氨基酸表同步：--update_residues_json_to_excel
3. JSON→口袋表同步：--update_pockets_json_to_excel

运行要求

依赖环境

Python环境：通过enviroment.yaml配置
GROBID服务：需运行Docker容器（grobid/grobid:0.8.1）
PDF解析库：scipdf_parser
API密钥：需配置OPENAI_API_KEY或GOOGLE_API_KEY

主程序

执行命令示例： bash python main.py <文献路径> <PDB路径> "<靶标蛋白名称>"
支持通过YAML/JSON配置文件或命令行参数覆盖默认设置

搜集汇总

数据集介绍

构建方式

该数据集通过系统整合科学文献中的蛋白质-配体结合口袋信息构建而成，采用GROBID引擎自动化处理PDF文献，结合scipdf_parser库进行结构化解析。研究团队从每篇论文中提取关键生物靶标、结合口袋描述及配体信息，并通过人工校验确保数据准确性。数据存储采用双轨制设计，既包含汇总的Excel表格（记录出版物元数据和口袋索引），又为每篇文献生成包含详细实验数据的JSON文件，辅以1-3个代表性PDB结构文件提供三维结构参照。

使用方法

使用该数据集需配置GROBID文献处理环境及大语言模型API密钥。通过main.py主脚本实现核心功能，用户需提供PDF文献路径、PDB文件路径及靶蛋白名称三个必要参数。配置文件支持YAML/JSON格式，可自定义大语言模型版本、调试模式等参数。数据集配套的dataset.py工具脚本提供数据格式转换功能：update_pockets_excel_to_json命令将Excel变更同步至JSON文件，update_residues_json_to_excel则反向更新氨基酸残基表。典型应用场景包括结合口袋特征分析、配体相互作用预测等计算生物学研究，运行示例已包含二氢乳清酸脱氢酶等具体案例。

背景与挑战

背景概述

LLM-benchmark-dataset是由研究团队在探索大语言模型在蛋白质结合口袋文献驱动优先排序中的应用时创建的。该数据集聚焦于蛋白质-配体结合口袋的文献挖掘，整合了科学文献中的关键信息，旨在通过自然语言处理技术解析和提取蛋白质结合位点的相关数据。数据集的核心研究问题在于如何高效地从海量科学文献中识别和优先排序蛋白质结合口袋，为药物发现和结构生物学研究提供有力支持。其影响力体现在为计算生物学和药物设计领域提供了标准化的文献挖掘基准，推动了人工智能在生物医学文本分析中的应用。

当前挑战

该数据集解决的领域问题在于蛋白质结合口袋的文献驱动优先排序，其挑战包括科学文献中蛋白质结合位点描述的多样性和复杂性，以及如何从非结构化文本中准确提取关键生物医学信息。在构建过程中，研究团队面临数据标注的一致性问题，需要协调不同文献中对同一蛋白质结合口袋描述的差异。此外，处理PDF格式的科学文献并从中提取结构化数据也带来了技术挑战，涉及自然语言处理模型的优化和领域适应性调整。

常用场景

经典使用场景

在生物信息学和计算生物学领域，LLM-benchmark-dataset数据集为研究人员提供了一个标准化的基准，用于评估和比较不同大语言模型在蛋白质结合口袋文献驱动优先级排序任务中的性能。通过整合科学文献中的蛋白质-配体结合口袋信息，该数据集支持从文本挖掘到结构生物学的跨学科研究，成为连接自然语言处理与分子生物学的重要桥梁。

解决学术问题

该数据集有效解决了蛋白质结合口袋信息分散、缺乏统一标注标准的学术难题。通过系统化整理文献中的口袋描述、配体信息和氨基酸残基数据，研究者能够更高效地验证计算模型对生物医学文本的语义理解能力，同时为蛋白质功能注释、药物靶点预测等关键问题提供结构化数据支持，显著提升了跨模态生物医学研究的可重复性。

实际应用

在制药工业的实际应用中，该数据集加速了基于AI的药物发现流程。药物化学家可借助该基准优化分子对接算法，快速识别潜在结合位点；临床研究人员则利用其标准化的蛋白质-配体关联数据，辅助评估候选化合物的靶向性。特别是在抗病毒药物和抗癌药物开发中，数据集提供的文献证据链显著降低了实验验证的盲目性。

数据集最近研究