five

产业链分析生物医药企业标签数据

收藏
浙江省数据知识产权登记平台2024-07-23 更新2024-07-24 收录
下载链接:
https://www.zjip.org.cn/home/announce/trends/40140
下载链接
链接失效反馈
官方服务:
资源简介:
通过对企业基本信息和关键词的匹配,确定公司的行业分类,为企业数据分类、分析提供前提对企业名称、主要产品、产品剂型、产品类型四个字段进行文本识别,和四级标签关键字字段进行匹配。匹配算法使用前缀树算法,用关键字字段构建前缀树,确定根节点。根节点就是所有关键字的公共前缀,比如说所有的关键字都是“药”开头的,那根节点就是“药”,如果关键字的开头不相同,那根节点就是为空字符,不影响计算。然后用文本从根节点开始逐字符遍历,如果节点出现该字符则进入子节点,如果没有出现则返回上一节点向下遍历,适用于大文本量快速匹配。当文本中出现四级标签关键字字段中任意一个关键词时,即确定该公司的行业分类一级标签为生物医药,二级标签为药品,三级标签为中药,四级标签为中成药。随即完成对一级标签、二级标签、三级标签、四级标签的自动填写。如果没有出现关键字字段中的任何关键词,则不匹配到该分类。
提供机构:
火石创造科技有限公司
创建时间:
2024-05-22
搜集汇总
数据集介绍
main_image_url
特点
该数据集包含2788条生物医药企业的标签数据,通过文本识别和前缀树算法匹配企业信息与标签关键字,确定企业的行业分类。数据每周更新,适用于企业数据分类和分析。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作