智慧芽垂直领域大模型
收藏江苏数据交易所2025-06-13 更新2026-01-30 收录
下载链接:
https://exchange.jsdataex.com/trade-home/#/project/tradingMarket/productDetail?productId=1171
下载链接
链接失效反馈官方服务:
资源简介:
目前,智慧芽已成功训练专利大模型和生物医药大模型,并积极更多垂直领域,正在训练面向材料、通信等领域的大模型,上述大模型合称“智慧芽垂直领域大模型”。其中,专利大模型通过中国专利代理师资格考试的水平,生物医药大模型达到了通过中国执业药师职业资格考试、美国注册药剂师考试(NAPLEX)的水平。在MMLU、C-Eval,Patent-Bench等综合测评结果显示,智慧芽垂直领域大模型在问答、总结、写作、翻译、分类等方面能力整体优于商业通用大模型。在训练数据方面,得益于智慧芽十余年积累的海量高质量科技创新数据,智慧芽垂直领域大模型的预训练数据达到了千亿级token的规模,包含了十余年积累和深加工的全球170个受理局的超过1.8亿专利、超过1.6亿篇论文、超过2100万则新闻、超过8.6亿个生物序列、超过2.5亿个化学结构、超过4万种靶点、超过8万种药物数据等。另外,在智慧芽垂直领域独特的数据配方构成上,还加入了7000余本专业书籍、丰富的行业常识等内容。在AI算法方面,智慧芽围绕数据、算法训练、测试、强化学习构筑了“四位一体”的训练平台。算法上,采用增强式预训练的策略,基于专利和医药领域超40位专家反馈及其2万多条对比数据的强化学习,配合RAG技术,加强大模型理解能力,减少幻觉,对齐人类意图,将大模型精度提升至80%。在应用场景方面,智慧芽面向知识产权、研发创新、生物医药和科创金融等领域的数据产品和服务拥有百万级的专业用户,与其业务流程深度整合。
提供机构:
智慧芽信息科技(苏州)有限公司
创建时间:
2025-06-13
搜集汇总
背景与挑战
背景概述
智慧芽垂直领域大模型是一个专注于专利和生物医药等特定行业的大模型集合,已成功训练出通过专业考试水平的模型,并在综合测评中整体优于商业通用大模型。其训练数据基于千亿级token的海量科技创新信息,涵盖专利、论文、生物序列等多种类型,结合增强式预训练算法和专家反馈,将模型精度提升至80%,广泛应用于知识产权、研发创新和生物医药等领域的百万级用户服务中。
以上内容由遇见数据集搜集并总结生成



