five

Nickmancol/etymology

收藏
Hugging Face2025-06-14 更新2025-10-25 收录
下载链接:
https://hf-mirror.com/datasets/Nickmancol/etymology
下载链接
链接失效反馈
官方服务:
资源简介:
这是一个结构化、全面的、多语言的词源数据集,通过解析Wiktionary的词源部分而创建。它包含超过420万个词源关系,涉及超过200万个术语,涵盖3300多种语言或方言。数据集区分了31种不同的词源关系类型,如继承、借用等,并保留了关系的层级结构,例如术语在语言中的演变。数据集的所有信息都是直接通过半结构化文本解析从Wiktionary获取的,没有进行结果验证。

This is a structured, comprehensive, and multilingual etymology dataset created by parsing Wiktionarys etymology sections. It contains over 4.2 million etymological relationships involving more than 2.0 million terms across over 3300 languages/dialects. The dataset distinguishes between 31 types of etymological relations, such as inheritance and borrowing, and preserves hierarchical relationship structures, such as the evolution of a term across languages.
提供机构:
Nickmancol
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作