新一代信息技术产业产业链结构文本训练数据

Name: 新一代信息技术产业产业链结构文本训练数据
Creator: 火石创造科技有限公司
Published: 2026-05-26 19:44:00
License: 暂无描述

浙江省数据知识产权登记平台2026-05-26 更新2026-05-27 收录

下载链接：

https://www.zjip.org.cn/home/announce/trends/8448962

下载链接

链接失效反馈

官方服务：

资源简介：

本数据集服务于新一代信息技术产业的智能分析与图谱构建，通过关联企业信息与产业标签，为核心工作提供数据支撑。主要应用于：产业生态洞察，辅助政府及园区摸清区域内软件服务、人工智能、集成电路、工业互联网等关键领域的创新主体分布与协作关系；技术趋势研判，为投资与研发机构分析人工智能软件开发、新型信息技术服务等热门赛道提供标准化企业画像与竞争格局；创新资源对接，赋能科技园区或链主企业，智能匹配从基础软件开发、系统集成到数据服务的各类技术供应商，促进创新链与产业链融合。一、加工前数据说明本数据集旨在构建用于新一代信息技术产业链智能分析的人工智能模型训练语料。在加工前，数据已进行严格的匿名化与去标识化处理。原始企业名称被统一替换为不可逆的规范标识符，简介中的具体地址、联系人等敏感信息已被移除，确保数据完全符合隐私保护与安全合规要求，为模型训练提供了洁净、可靠的输入基础。二、数据处理规则数据处理严格遵循 “体系先行、业务匹配、特征抽取” 的核心规则，形成了一套从分类框架构建到最终标签生成的完整流程：1.首先，依据新一代信息技术产业分类，预先定义了以“新一代信息技术产业”为根节点，下设“新兴软件和新型信息技术服务”、“人工智能”、“下一代信息网络产业”、“电子核心产业”、“互联网与云计算、大数据服务”等二级节点，并进一步细分为“新兴软件开发”、“新型信息技术服务”、“人工智能软件开发”、“网络设备制造”等具体业态（三级节点）的树状分类体系。该体系确保了产业分类的逻辑性与全面性。2.业务匹配：采用“自动化规则匹配与人工校验相结合”的策略。首先，依托Spark等大数据处理框架，对企业简介文本进行分布式清洗、分词与关键词匹配，通过预构建的新一代信息技术产业语义规则库（含“软件开发”、“人工智能”、“系统集成”、“云计算”、“集成电路”等关键词）自动计算并推荐初步的分类节点。随后，由标注专家对系统推荐结果进行全文语境审核与最终判定，依据企业核心产品与服务（如是否从事人工智能算法开发、是否为软件定制服务商等），确保每家企业被精准归入最贴切的业态节点。3.特征抽取：在完成业务匹配的同时，从同一段企业简介文本中，系统性地抽取代表其核心技术能力、服务模式或竞争优势的关键术语与形容词（如：“智能”、“安全”、“定制化”、“解决方案”），经过去重与标准化，组合成“正向词”特征串。该特征作为对分类标签的语义补充，为模型提供了更丰富的业务特征信息。三、加工后数据内容加工后的数据集为一条条结构化的“文本-标签”数据。每条数据均包含脱敏后的企业描述文本，以及与之对应、经人工校验的完整分类标签（一级至三级节点、产业标签）与业务特征词（正向词）。数据内容全面覆盖软件开发、人工智能、网络技术、电子核心等新一代信息技术产业核心领域，形成了一个分类体系清晰、标注一致性较高、特征明确的数据集，可直接用于该产业的企业智能分类、生态图谱构建等模型的训练与评估。

提供机构：

火石创造科技有限公司

创建时间：

2026-01-23

搜集汇总

数据集介绍

背景与挑战

背景概述

该数据集是面向新一代信息技术产业的文本训练数据，包含1000条经过匿名化处理的企业信息，涵盖企业简介、产业分类节点（一级至三级）及业务特征词等结构化标签。数据基于预设的产业分类体系，通过自动化规则匹配与人工校验生成，可用于支撑产业生态洞察、技术趋势研判和创新资源对接等应用场景，服务于企业智能分类与产业链图谱构建模型的训练与评估。

以上内容由遇见数据集搜集并总结生成