zjunlp/Mol-Instructions|生物分子数据集|大型语言模型数据集
收藏数据集概述
数据集名称
🧪 Mol-Instructions
数据集描述
Mol-Instructions 是一个开放的大型生物分子指令数据集,专为大型语言模型设计。
数据集内容
数据统计
- 🔬 分子导向指令: 包含148,4K指令,覆盖六个任务。
- 🧬 蛋白质导向指令: 包含505K指令,覆盖五个任务。
- 🥼 生物分子文本指令: 包含53K指令,覆盖六个信息提取和问答任务。
数据构建
- 人机协作任务描述创建
- 现有数据信息提取
- 基于模板的生物数据文本转换
- 质量控制
数据发布
数据集已发布在 Hugging Face 平台,地址为 zjunlp/Mol-Instructions。
任务
分子导向
- 分子描述生成
- 描述引导的分子设计
- 正向反应预测
- 逆合成
- 试剂预测
- 性质预测
蛋白质导向
- 蛋白质设计
- 催化活性预测
- 蛋白质功能预测
- 功能描述生成
- 域/基序预测
生物分子文本
- 化学实体识别
- 化学-疾病交互提取
- 化学-蛋白质交互提取
- 多选题
- 真假题
- 开放问题
演示
模型权重发布
- 分子导向: zjunlp/llama-molinst-molecule-7b
- 蛋白质导向: zjunlp/llama-molinst-protein-7b
- 生物分子文本: zjunlp/llama-molinst-biotext-7b
模型使用指南
请参考 repository 获取详细的使用指南。
常见问题解答
- 模型遇到
<unk>
和重复输入时的处理 - 模型遇到 � 时的处理
- 使用相同解码参数得到不同结果的原因
- 答案质量不佳的可能原因
注意事项
使用和许可
数据集仅供研究使用,遵循 CC BY 4.0 许可,禁止商业使用。
限制
模型目前仅作为初步演示,处理实际生产级任务的能力有限。
OpenPose
OpenPose数据集包含人体姿态估计的相关数据,主要用于训练和评估人体姿态检测算法。数据集包括多视角的图像和视频,标注了人体关键点位置,适用于研究人体姿态识别和动作分析。
github.com 收录
MultiTalk
MultiTalk数据集是由韩国科学技术院创建,包含超过420小时的2D视频,涵盖20种不同语言,旨在解决多语言环境下3D说话头生成的问题。该数据集通过自动化管道从YouTube收集,每段视频都配有语言标签和伪转录,部分视频还包含伪3D网格顶点。数据集的创建过程包括视频收集、主动说话者验证和正面人脸验证,确保数据质量。MultiTalk数据集的应用领域主要集中在提升多语言3D说话头生成的准确性和表现力,通过引入语言特定风格嵌入,使模型能够捕捉每种语言独特的嘴部运动。
arXiv 收录
TCIA
TCIA(The Cancer Imaging Archive)是一个公开的癌症影像数据集,包含多种癌症类型的医学影像数据,如CT、MRI、PET等。这些数据通常与临床和病理信息相结合,用于癌症研究和临床试验。
www.cancerimagingarchive.net 收录
VoxBox
VoxBox是一个大规模语音语料库,由多样化的开源数据集构建而成,用于训练文本到语音(TTS)系统。
github 收录
NuminaMath-CoT
数据集包含约86万道数学题目,每道题目的解答都采用思维链(Chain of Thought, CoT)格式。数据来源包括中国高中数学练习题以及美国和国际数学奥林匹克竞赛题目。数据主要从在线考试试卷PDF和数学讨论论坛收集。处理步骤包括从原始PDF中进行OCR识别、分割成问题-解答对、翻译成英文、重新对齐以生成CoT推理格式,以及最终答案格式化。
huggingface 收录