five

StephanAkkerman/frequency-words-2016

收藏
Hugging Face2024-11-09 更新2024-12-14 收录
下载链接:
https://hf-mirror.com/datasets/StephanAkkerman/frequency-words-2016
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集是hermitdaves FrequencyWords数据的克隆版本,原始数据来源于OpenSubtitles2016。数据集中包含了多种语言的词频信息,支持的语言包括但不限于南非荷兰语、阿拉伯语、保加利亚语、孟加拉语、布列塔尼语、波斯尼亚语、加泰罗尼亚语、捷克语、丹麦语、德语、希腊语、英语、世界语、西班牙语、爱沙尼亚语、巴斯克语、波斯语、芬兰语、法语、加利西亚语、希伯来语、印地语、克罗地亚语、匈牙利语、亚美尼亚语、印度尼西亚语、冰岛语、意大利语、日语、格鲁吉亚语、哈萨克语、韩语、立陶宛语、拉脱维亚语、马其顿语、马拉雅拉姆语、马来语、荷兰语、挪威语、波兰语、葡萄牙语、巴西葡萄牙语、罗马尼亚语、俄语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、阿尔巴尼亚语、塞尔维亚语、瑞典语、泰米尔语、泰卢固语、泰语、他加禄语、土耳其语、乌克兰语、越南语、中文和繁体中文。

This dataset is a clone of the data provided by hermitdaves FrequencyWords, with the original data sourced from OpenSubtitles2016. It includes word frequency information for a variety of languages, supported languages include but are not limited to Afrikaans, Arabic, Bulgarian, Bengali, Breton, Bosnian, Catalan, Czech, Danish, German, Greek, English, Esperanto, Spanish, Estonian, Basque, Persian, Finnish, French, Galician, Hebrew, Hindi, Croatian, Hungarian, Armenian, Indonesian, Icelandic, Italian, Japanese, Georgian, Kazakh, Korean, Lithuanian, Latvian, Macedonian, Malayalam, Malay, Dutch, Norwegian, Polish, Portuguese, Brazilian Portuguese, Romanian, Russian, Sinhala, Slovak, Slovenian, Albanian, Serbian, Swedish, Tamil, Telugu, Thai, Tagalog, Turkish, Ukrainian, Vietnamese, Chinese, and Traditional Chinese.
提供机构:
StephanAkkerman
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作