EMCarrami/Pika-DS
收藏Hugging Face2024-06-13 更新2024-06-29 收录
下载链接:
https://hf-mirror.com/datasets/EMCarrami/Pika-DS
下载链接
链接失效反馈官方服务:
资源简介:
Pika-DS是一个专门用于零样本科学蛋白质问答的数据集。该数据集基于UniProt数据库中的SwissProt条目,提取了多个科学信息字段,包括序列、生物体、催化活性、生物物理化学性质、辅因子、亚基、亚细胞定位和功能域等。通过严格的50%相似度阈值去偏见,并使用GPT3.5 API处理每个蛋白质条目的信息字段。数据集包含257K个蛋白质、1.17M个信息字段、1.33M个摘要、1.71M个问题和1.71M个答案。数据集提供了两种不同的数据分割方式(UniRef50和EvoGroup),并包含三个主要部分:注释、序列和元数据、以及指标的基准真值。数据集的目标是提供一个高质量、去偏见的蛋白质问答数据集,并推动蛋白质研究的发展。
Pika-DS是一个专门用于零样本科学蛋白质问答的数据集。该数据集基于UniProt数据库中的SwissProt条目,提取了多个科学信息字段,包括序列、生物体、催化活性、生物物理化学性质、辅因子、亚基、亚细胞定位和功能域等。通过严格的50%相似度阈值去偏见,并使用GPT3.5 API处理每个蛋白质条目的信息字段。数据集包含257K个蛋白质、1.17M个信息字段、1.33M个摘要、1.71M个问题和1.71M个答案。数据集提供了两种不同的数据分割方式(UniRef50和EvoGroup),并包含三个主要部分:注释、序列和元数据、以及指标的基准真值。数据集的目标是提供一个高质量、去偏见的蛋白质问答数据集,并推动蛋白质研究的发展。
提供机构:
EMCarrami



