five

通用新词发现原子能力

收藏
海南省公共数据授权运营-海南省数据产品超市2024-08-22 收录
下载链接:
https://transaction.datadex.cn/app/buyApi?id=1496afeaf5f14f4c9a8e91053e92a26e
下载链接
链接失效反馈
官方服务:
资源简介:
基于信息熵Entropy、内部凝聚度PMI、闭包子集、停用词和大规模中文词林去噪的一个通用的新词发现能力,解决各个业务场景中面临的未登录词语义缺失带来的模型误差,帮助模型更高效的落地应用。

A general new word discovery capability based on Entropy, internal cohesion measured by Pointwise Mutual Information (PMI), closed subsets, stop words, and large-scale Chinese Cilin for denoising resolves model errors caused by semantic deficiency of out-of-vocabulary (OOV) words across various business scenarios, and enables more efficient deployment and real-world application of models.
提供机构:
中国电信股份有限公司海南分公司-数据产品超市
创建时间:
2023-12-12
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集提供基于信息熵和内部凝聚度等技术的通用新词发现能力,通过识别未登录词解决模型语义缺失问题,从而提升模型在实际应用中的效果。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作