Stopword Lists for 19 Languages 19种语言的停用词列表
收藏阿里云天池2026-06-08 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/90037
下载链接
链接失效反馈官方服务:
资源简介:
有些单词(例如英语中的“ the”或“ and”)在演讲和写作中经常使用。对于大多数自然语言处理应用程序,您将希望删除这些非常常见的单词。通常使用手工编制的“停用词”列表来完成此操作。该数据集包含19种语言的停用词列表。
Some words (e.g., "the" or "and" in English) are extremely frequently used in both speech and writing. For most natural language processing applications, these highly common words need to be removed. This task is typically accomplished using a manually curated "stop word" list. This dataset provides stop word lists for 19 languages.
提供机构:
阿里云天池
创建时间:
2021-02-02
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集提供了19种语言的停用词列表,用于在自然语言处理(NLP)应用中移除常见的高频词汇。这些列表覆盖多种语言,包括英语、法语、德语等,旨在辅助文本分析和预处理任务。
以上内容由遇见数据集搜集并总结生成



