five

Chinesestopword

收藏
阿里云天池2026-05-15 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/139460
下载链接
链接失效反馈
官方服务:
资源简介:
对于页面降噪后,会开始对提取的内容进行停止词过滤,比如比如中文:嗯、也、的、为、啊、呀、别、并且等。英文中也存在停止词比如:about、or、the、all、am等。系统运行中可能不清楚到底那些属于停止词,所以通过上传停止词大全,可以作为参考。中文停止词库,主要用于在停止词库中搜索词库内的词,确保不会出现系统在划分停止词时的混乱。
提供机构:
阿里云天池
创建时间:
2022-10-20
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是一个中文停止词库,包含用于文本处理中过滤停止词的词汇列表,以避免系统在划分时产生混乱。数据集文件为chinesestopword.txt,上传于2022年10月20日,大小为5.33KB。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作