English Word Frequency 英语单词频率
收藏阿里云天池2026-06-03 更新2024-03-07 收录
下载链接:
https://tianchi.aliyun.com/dataset/89883
下载链接
链接失效反馈官方服务:
资源简介:
对于自然语言处理和语言学家来说,单词在语言中出现的频率是重要的信息。在自然语言处理中,频率高的单词往往比频率低的单词信息更少,并且经常在预处理过程中被删除。人类语言使用者对词频也很敏感。一个词的使用频率会影响人类的语言处理。例如,非常频繁的单词可以更快地阅读和理解,在背景噪音中也更容易理解。
For natural language processing (NLP) researchers and linguists, the frequency of word occurrence in a language constitutes critical information. In NLP, high-frequency words usually carry less information than low-frequency counterparts, and are often removed during preprocessing. Human language users are also sensitive to word frequency; the usage frequency of a word affects human language processing. For instance, highly frequent words can be read and understood more quickly, and are also easier to comprehend against background noise.
提供机构:
阿里云天池
创建时间:
2021-02-01
搜集汇总
数据集介绍

背景与挑战
背景概述
该数据集名为'English Word Frequency 英语单词频率',是一个公共数据集,包含英语网络上最常用的333,333个单词的频率计数,源自Google Web Trillion Word Corpus。它主要用于自然语言处理任务,如文本预处理(例如移除高频低信息词)和语言学研究,帮助分析单词使用模式及其对人类语言处理的影响。数据集以CSV文件形式提供,大小为4.73MB,适用于词性标注、跨语言比较等应用场景。
以上内容由遇见数据集搜集并总结生成



