通用新词发现原子能力
收藏海南省公共数据授权运营-海南省数据产品超市2024-08-22 收录
下载链接:
https://transaction.datadex.cn/app/buyApi?id=1496afeaf5f14f4c9a8e91053e92a26e
下载链接
链接失效反馈官方服务:
资源简介:
基于信息熵Entropy、内部凝聚度PMI、闭包子集、停用词和大规模中文词林去噪的一个通用的新词发现能力,解决各个业务场景中面临的未登录词语义缺失带来的模型误差,帮助模型更高效的落地应用。
A general new word discovery capability based on Entropy, internal cohesion measured by Pointwise Mutual Information (PMI), closed subsets, stop words, and large-scale Chinese Cilin for denoising resolves model errors caused by semantic deficiency of out-of-vocabulary (OOV) words across various business scenarios, and enables more efficient deployment and real-world application of models.
提供机构:
中国电信股份有限公司海南分公司-数据产品超市
创建时间:
2023-12-12
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集提供基于信息熵和内部凝聚度等技术的通用新词发现能力,通过识别未登录词解决模型语义缺失问题,从而提升模型在实际应用中的效果。
以上内容由遇见数据集搜集并总结生成



