carloscapote/es.wiktionary.org
收藏Hugging Face2023-12-28 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/carloscapote/es.wiktionary.org
下载链接
链接失效反馈官方服务:
资源简介:
西班牙语Wiktionary数据集是一个基于Wikimedia Foundation的Wiktionary的多语言数据集,旨在解决现有数据集在获取非英语单词时丢弃大量单词和定义的问题。通过一个自定义解析器,直接从西班牙语Wiktionary的转储中获取定义,该数据集目前处于早期开发阶段,但已经包含了873,990个易于阅读和处理的定义,适用于机器学习应用。
提供机构:
carloscapote
原始信息汇总
Spanish Wiktionary 数据集
数据集概述
- 许可证: cc-by-sa-4.0
- 语言: 西班牙语
- 名称: Spanish Wiktionary
- 大小: 100K<n<1M
动机
多语言数据集通常基于维基媒体基金会的维基词典,使用其翻译系统获取非英语单词,这导致许多单词和定义被丢弃。
开发
为了解决这个问题,编写了一个自定义解析器,直接从西班牙语维基词典的转储中获取定义。解析器和数据集将同步开发。
阶段
解析器和数据集都处于早期开发阶段,但它们已经提供了一个包含873,990个易于阅读和处理定义的列表,适用于机器学习目的。
联系方式
如果您对贡献解析器或数据集感兴趣,请随时联系我。



