合成生物产业链结构文本训练数据
收藏浙江省数据知识产权登记平台2026-05-22 更新2026-05-24 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/8447685
下载链接
链接失效反馈官方服务:
资源简介:
本数据集服务于合成生物产业链智能分类与产业图谱构建模型的训练与开发,通过关联企业文本与产业链环节标签,为生物经济发展提供数据工具。其主要应用于:前沿技术监测与投资决策:赋能投资机构与产业研究部门,精准识别基因编辑、基因测序、酶工程等使能技术领域的创新企业,以及生物医药、生物能源、生物基材料等垂直应用领域的领先者,为技术趋势研判与投资布局提供依据。产业链分析与强链补链:辅助政府与产业规划部门,绘制区域合成生物产业在使能技术、原材料供应、下游产品开发等环节的分布地图,识别产业链优势环节与潜在短板,为制定产业扶持政策提供数据支撑。一、加工前数据说明
本数据集旨在构建用于合成生物产业链智能分析的人工智能模型训练语料。在加工前,数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符,并彻底移除所有的个人及商业敏感信息,确保数据完全符合隐私保护与安全合规要求,为模型训练提供了洁净、可靠的输入基础。
二、数据处理规则
数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则,形成了一套从分类框架构建到最终标签生成的完整流程:1.首先,依据合成生物学产业的专业分工与技术架构,预先定义了以“合成生物”为一级节点,按产业环节划分为“开发垂直产品或服务”(下游应用)和“使能技术和基础材料”(上游技术与平台)两个二级节点,并进一步细分为“食品与营养”、“化工能源”、“农业技术”、“生物医药”、“原材料”、“使能技术”等三级节点,以及“生物能源”、“生物农药”、“基因测序技术”等四级节点的树状分类体系,为数据加工提供了专业的产业逻辑框架。2.业务匹配:采用“自动化规则匹配与人工校验相结合”的策略。首先,依托Spark大数据处理框架,对海量企业简介文本进行分布式清洗、分词与关键词匹配,通过预构建的合成生物产业语义规则库自动计算并推荐初步分类节点。随后,由具备生物技术行业知识的标注专家进行审核与最终判定,确保企业被精准归入对应的产业链环节与技术领域。3.特征抽取:在完成业务匹配的同时,从同一段企业简介文本中,系统性地抽取代表其核心技术、产品或应用领域的关键术语与名词性短语,经过去重与标准化格式化,组合成“正向词”特征串,并归纳其所属的“产业标签”,共同作为对分类标签的精准语义补充。
三、加工后数据内容
加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含经过脱敏处理的原始企业描述文本,以及与之对应、经人工校验的完整分类标签(一至四级节点)、高度细化的业务特征词(正向词)与产业标签。数据内容全面覆盖了合成生物产业上游的使能技术与基础材料,以及下游的食品、化工、农业、医药等垂直应用领域,形成了一个分类体系专业、技术特征鲜明、可直接用于合成生物产业链分析、技术成熟度评估与创新企业识别等模型训练与评估的高质量专用数据集。
提供机构:
火石创造科技有限公司
创建时间:
2026-02-28
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集包含1000条结构化文本-标签数据,来源于经匿名化处理的企业信息,涵盖合成生物产业链的上游使能技术与下游垂直应用领域。数据以xlsx格式按需更新,通过自动化规则与人工校验结合的方法生成四级分类标签、正向词和产业标签,旨在为合成生物产业链智能分类、产业图谱构建及投资决策提供高质量的训练语料。
以上内容由遇见数据集搜集并总结生成



