five

仿制药产业链结构文本训练数据

收藏
浙江省数据知识产权登记平台2026-05-29 更新2026-05-30 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8449815
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集服务于仿制药产业链智能分类与产业图谱构建模型的训练与开发,通过关联企业文本与药物研发生产标签,为医药产业分析提供核心数据工具。其主要应用于:研发管线与竞品分析:辅助医药企业、投资机构,追踪在特定治疗领域进行仿制药研发、原料药生产的企业布局,分析研发热点与竞争格局。供应链寻源与合规管理:赋能制药企业,识别上游药用原料的合格供应商,并关联其GMP认证等信息,支持供应链安全与合规审计。产业政策与区域规划:支持政府与产业园区,分析区域内仿制药产业在上中游环节的集聚情况、技术实力与产业链完整性,为制定产业扶持政策提供依据。一、加工前数据说明 本数据集旨在构建用于仿制药产业链智能分析的人工智能模型训练语料。在加工前,数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了洁净、可靠的输入基础。 二、数据处理规则 数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,依据国家《药品管理法》、《化学药品注册分类》及产业共识,预先定义了以“仿制药”为一级节点,按产业链位置划分为“上游:原材料、包材及制药设备”和“中游:仿制药研发及制造”两个二级节点,并进一步参照药理治疗领域细分为“心血管系统用药”、“系统用抗感染药”、“原料药”等三级节点及其具体药物类型(四级节点)的专业树状分类体系。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略。首先,依托Spark大数据处理框架,对企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的医药产业语义规则库(涵盖各类药物通用名、药理分类、原料药、GMP等)自动计算并推荐初步分类节点。随后,由具备药学或生物医药背景的标注专家进行审核与最终判定,确保企业精准归入对应的产业链环节与治疗领域。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,抽取与药品研发、生产、原料相关的关键名词与核心业务片段,经组合去重,形成“正向词”特征串;并归纳其所属的“产业标签”,共同作为对多级分类节点的语义补充与产业属性标注。 三、加工后数据内容 加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至四级节点)、反映业务关键词的特征词(正向词)与产业标签。数据内容全面覆盖了仿制药产业从原料药、药用辅料到各类化学药品制剂研发制造的核心环节,形成了一个分类体系专业、产业链条清晰、可直接用于仿制药企业定位、研发动态追踪及供应链分析等模型训练与评估的专用数据集。
提供机构:
火石创造科技有限公司
创建时间:
2026-02-06
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是用于仿制药产业链智能分类与产业图谱构建的文本训练数据,包含1000条结构化“文本-标签”数据,覆盖从原料药、药用辅料到化学药品制剂研发制造的核心环节。数据通过自动化规则匹配与人工校验相结合的方式,为企业简介文本标注了多级产业链分类节点(一至四级)、正向词和产业标签,可支持研发管线分析、供应链寻源及区域产业规划等场景。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作