nltk-data-hub/swadesh

Name: nltk-data-hub/swadesh
Creator: nltk-data-hub
Published: 2026-04-28 12:52:55
License: 暂无描述

Hugging Face2026-04-28 更新2026-05-03 收录

下载链接：

https://hf-mirror.com/datasets/nltk-data-hub/swadesh

下载链接

链接失效反馈

官方服务：

资源简介：

NLTK Swadesh词汇列表数据集包含24种语言的基本词汇列表，源自Wiktionary Swadesh列表附录。每个配置代表一种不同的语言，每行对应207个Swadesh概念中的一个。数据集包括白俄罗斯语、保加利亚语、波斯尼亚语、加泰罗尼亚语、捷克语、教会斯拉夫语、德语、英语、西班牙语、法语、克罗地亚语、意大利语、拉丁语、马其顿语、荷兰语、波兰语、葡萄牙语、罗马尼亚语、俄语、斯洛伐克语、斯洛文尼亚语、塞尔维亚语、斯瓦希里语和乌克兰语。数据模式包括concept_index和word列，其中concept_index是Swadesh列表位置（1-207），word是该语言中的单词/短语（可能包含替代项）。数据集采用CC-BY-SA 3.0许可，可通过Hugging Face数据集或NLTK访问。

The NLTK Swadesh Word Lists dataset contains basic vocabulary lists for 24 languages derived from the Wiktionary Swadesh list appendix. Each config represents a different language, and each row corresponds to one of the 207 Swadesh concepts. The dataset includes languages such as Belarusian, Bulgarian, Bosnian, Catalan, Czech, Church Slavonic, German, English, Spanish, French, Croatian, Italian, Latin, Macedonian, Dutch, Polish, Portuguese, Romanian, Russian, Slovak, Slovenian, Serbian, Swahili, and Ukrainian. The schema includes columns for concept_index and word, where concept_index is the Swadesh list position (1–207) and word is the word/phrase in that language (may contain alternatives). The dataset is licensed under CC-BY-SA 3.0 and can be accessed via Hugging Face datasets or NLTK.

提供机构：

nltk-data-hub

5,000+

优质数据集

54 个

任务类型

进入经典数据集