batman2

Hugging Face2024-08-13 更新2024-12-12 收录

下载链接：

https://huggingface.co/datasets/f-galkin/batman2

下载链接

链接失效反馈

官方服务：

资源简介：

BATMAN数据集是一个重新格式化的传统中药(TCM)成分、草药和配方数据库，包含化合物、草药和配方的详细信息，旨在支持药物发现和生物医学语言模型的扩展。

The BATMAN Dataset is a reformatted database of traditional Chinese medicine (TCM) ingredients, herbs and formulas, which contains detailed information on compounds, herbs and formulas, and is aimed at supporting drug discovery and the expansion of biomedical language models.

创建时间：

2024-08-12

原始信息汇总

数据集概述

数据集名称

名称: batman
许可证: cc-by-nc-4.0
许可证链接: https://creativecommons.org/licenses/by-nc/4.0/

数据集规模

规模: 100K<n<1M

数据集配置

batman_ingredients:
- 数据文件: data/batman_ingredients.csv
- 分隔符:
batman_herbs:
- 数据文件: data/batman_herbs.csv
- 分隔符:
batman_formulas:
- 数据文件: data/batman_formulas.csv
- 分隔符:

任务类别

类别: other

语言

语言: en, cn

数据集目的

目的: 该数据集是传统中药（TCM）成分、草药和配方的数据库BATMAN-2.0的重新格式化的副本。

数据集用途

用途: 该数据集可以用于药物发现实验或扩展您自己的生物医学语言模型的功能。例如，我们使用此数据集扩展了Precious3GPT在demo/TCM_geroprotectors演示项目中的功能。

数据集结构

batman_ingredients:
- 字段:
  - UID: 在整个数据集中实体的唯一ID；
  - cid: PubChem分子ID；
  - pref_name: 化合物的常规名称（如BATMAN中所述）；
  - synonyms: 与CID相关的其他名称（如果存在于BATMAN中）；
  - targets_known: 根据BATMAN验证的人类蛋白质靶点，格式为"symbol(ENTREZ_ID)"；
  - targets_pred: 根据BATMAN所述的所有预测蛋白质靶点（未使用显著性阈值过滤这些列表）；
  - herbs: 化合物所遇到的草药列表；
  - formulas: 包含此化合物的TCM配方列表。
batman_herb:
- 字段:
  - UID；
  - pref_name: 最常见的是草药的拼音名称。如果不可用，则使用任何其他可用名称，例如拉丁语或常用英语；
  - synonyms；
  - ingredients: 草药中出现的所有化合物CID列表；
  - formulas: 包含此草药的TCM配方列表。
batman_formulas:
- 字段:
  - UID；
  - pref_name: 草药药物的拼音名称。非相同成分共享相同名称时，使用~X后缀进行区分；
  - synonyms: 配方的汉字拼写；
  - ingredients；
  - herbs。

引用

@article{10.1093/nar/gkad926, author = {Kong, Xiangren and Liu, Chao and Zhang, Zuzhen and Cheng, Meiqi and Mei, Zhijun and Li, Xiangdong and Liu, Peng and Diao, Lihong and Ma, Yajie and Jiang, Peng and Kong, Xiangya and Nie, Shiyan and Guo, Yingzi and Wang, Ze and Zhang, Xinlei and Wang, Yan and Tang, Liujun and Guo, Shuzhen and Liu, Zhongyang and Li, Dong}, title = "{BATMAN-TCM 2.0: an enhanced integrative database for known and predicted interactions between traditional Chinese medicine ingredients and target proteins}", journal = {Nucleic Acids Research}, volume = {52}, number = {D1}, pages = {D1110-D1120}, year = {2023}, month = {10}, abstract = "{Traditional Chinese medicine (TCM) is increasingly recognized and utilized worldwide. However, the complex ingredients of TCM and their interactions with the human body make elucidating molecular mechanisms challenging, which greatly hinders the modernization of TCM. In 2016, we developed BATMAN-TCM 1.0, which is an integrated database of TCM ingredient–target protein interaction (TTI) for pharmacology research. Here, to address the growing need for a higher coverage TTI dataset, and using omics data to screen active TCM ingredients or herbs for complex disease treatment, we updated BATMAN-TCM to version 2.0 (http://bionet.ncpsb.org.cn/batman-tcm/). Using the same protocol as version 1.0, we collected 17 068 known TTIs by manual curation (with a 62.3-fold increase), and predicted ∼2.3 million high-confidence TTIs. In addition, we incorporated three new features into the updated version: (i) it enables simultaneous exploration of the target of TCM ingredient for pharmacology research and TCM ingredients binding to target proteins for drug discovery; (ii) it has significantly expanded TTI coverage; and (iii) the website was redesigned for better user experience and higher speed. We believe that BATMAN-TCM 2.0, as a discovery repository, will contribute to the study of TCM molecular mechanisms and the development of new drugs for complex diseases.}", issn = {0305-1048}, doi = {10.1093/nar/gkad926}, url = {https://doi.org/10.1093/nar/gkad926}, eprint = {https://academic.oup.com/nar/article-pdf/52/D1/D1110/55040286/gkad926.pdf}, }

搜集汇总

数据集介绍

构建方式

batman2数据集是基于BATMAN-2.0数据库的重构版本，专注于传统中医药（TCM）成分、草药及配方的系统性整理。该数据集通过手动整理和自动化预测相结合的方式，构建了包含17,068个已知成分-靶点相互作用（TTI）的数据库，并预测了约230万高置信度的TTI。数据来源包括PubChem分子库及BATMAN原始数据库，确保了数据的广泛覆盖和高质量。

特点

batman2数据集的特点在于其高度整合的TCM成分与靶点蛋白的相互作用信息。数据集不仅提供了已知的TTI，还包含了大量预测的相互作用，极大地扩展了TCM研究的覆盖范围。此外，数据集支持多语言（英语和中文），并提供了详细的草药、成分及配方信息，便于用户进行药物发现和生物医学语言模型的扩展。

使用方法

batman2数据集的使用方法多样，用户可以通过提供的CSV文件直接访问数据，或利用HuggingFace平台上的演示笔记本进行实验。该数据集特别适用于药物发现实验，用户可以通过分析成分与靶点的相互作用，筛选潜在的药物候选物。此外，数据集还可用于扩展生物医学语言模型的功能，例如在Precious3GPT等模型中引入TCM相关数据，提升其在中医药领域的应用能力。

背景与挑战

背景概述

BATMAN-2.0数据集是由中国科学院生物物理研究所的研究团队于2023年推出的一个关于传统中药（TCM）成分、草药及其配方的综合性数据库。该数据集旨在通过整合已知和预测的中药成分与靶蛋白之间的相互作用，推动中药现代化和药物发现研究。BATMAN-2.0不仅扩展了其前身BATMAN-TCM 1.0的数据覆盖范围，还引入了新的功能，如支持同时探索中药成分的药理学研究和靶蛋白的药物发现。该数据集的发布为研究中药分子机制和复杂疾病治疗提供了重要的数据支持，并在生物医学领域产生了广泛影响。

当前挑战

BATMAN-2.0数据集在解决中药成分与靶蛋白相互作用的研究中面临多重挑战。首先，中药成分复杂多样，其与人体相互作用的分子机制尚未完全阐明，这为数据集的构建和验证带来了巨大困难。其次，数据集中包含大量预测的相互作用，其准确性和可靠性需要进一步实验验证。此外，数据集的构建过程中，研究人员需从大量文献和数据库中手动提取和整合数据，这一过程耗时且易出错。最后，如何将数据集有效应用于药物发现和生物医学语言模型的扩展，仍需克服数据格式兼容性和计算资源限制等技术难题。

常用场景

经典使用场景

BATMAN2数据集在药物发现和生物医学研究中具有广泛的应用，尤其是在传统中药（TCM）成分与蛋白质靶点相互作用的研究中。通过该数据集，研究人员可以系统地分析中药成分的化学结构及其与人类蛋白质的相互作用，从而为药物筛选和开发提供科学依据。该数据集还支持生物医学语言模型的扩展，帮助研究人员更好地理解中药的分子机制。

实际应用

在实际应用中，BATMAN2数据集被广泛用于药物发现和生物医学研究。例如，研究人员可以利用该数据集进行中药成分的筛选，识别出具有特定生物活性的化合物，进而开发新的药物。此外，该数据集还被用于扩展生物医学语言模型的功能，如Precious3GPT，使其能够处理中药相关的数据，从而在药物发现和疾病治疗中发挥更大的作用。

衍生相关工作

BATMAN2数据集衍生了许多相关的研究工作，尤其是在中药成分与蛋白质靶点相互作用领域。例如，基于该数据集的研究成果已被用于开发新的药物筛选工具和生物医学模型。此外，该数据集还为中药现代化研究提供了重要的数据支持，推动了中药分子机制的研究和复杂疾病治疗药物的开发。相关研究不仅扩展了中药的应用范围，还为全球药物开发提供了新的思路。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集