cjvt/slo_thesaurus
收藏Hugging Face2022-10-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/slo_thesaurus
下载链接
链接失效反馈官方服务:
资源简介:
这是一个自动生成的斯洛文尼亚语同义词库,名为现代斯洛文尼亚语同义词库1.0,也称为Sopomenke 1.0。数据集来源于一个综合的英语-斯洛文尼亚语词典、一个单语词典和一个语料库。数据集的创建使用了双语词典中单词共现图的网络分析,并结合了Sketch Engine工具中的分布同义词库数据,这些数据提取自12亿词的Gigafida语料库和单语词典。数据集的结构包括每个词条的实例,每个实例包含词条的元数据,如词头、核心同义词组和近似同义词组等信息。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称
Thesaurus of Modern Slovene 1.0
别名
Sopomenke 1.0
语言
- 斯洛文尼亚语
许可证
- CC BY-SA 4.0
多语言性
- 单语种
数据集大小
- 100K<n<1M
数据集创建者
- 机器生成
数据集描述
该数据集是一个自动创建的斯洛文尼亚语同义词词典,源自斯洛文尼亚语数据,包括一个综合的英斯双语词典、一个单语词典和一个语料库。使用了双语词典词共现图的网络分析,并结合了Sketch Engine工具提供的分布式同义词词典数据,以及从12亿词的Gigafida语料库和单语词典中提取的额外信息。
数据集结构
数据实例
每个条目都存储在自己的实例中,包含以下字段:
id_headword: 单词的字符串ID;headword: 该实例中同义词组所属的单词;groups_core: 可能的同义词组,每个组包含单词ID (id_words)、同义词 (words) 和同义关系强度 (scores)。某些组还包含领域注释 (domains);groups_near: 类似于groups_core,但这里的同义词通常不是精确同义词,而是其他方面相似的词。
数据集使用
- 其他(数据是知识库)
数据集引用
@article{krek2017translation, title={From translation equivalents to synonyms: creation of a Slovene thesaurus using word co-occurrence network analysis}, author={Krek, Simon and Laskowski, Cyprian and Robnik-{v{S}}ikonja, Marko}, journal={Proceedings of eLex}, pages={93--109}, year={2017} }



