cjvt/slo_collocations
收藏Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/slo_collocations
下载链接
链接失效反馈官方服务:
资源简介:
现代斯洛文尼亚语搭配词典1.0数据库包含35,862个词目(18,043个名词、5,148个动词、10,259个形容词和2,412个副词)和7,310,983个搭配,这些搭配是从Gigafida 1.0语料库中自动提取的。提取过程使用了专门为斯洛文尼亚语调整的Sketch语法,并通过手动评估确定了一系列参数。后处理步骤包括移除重复句子的搭配、准备完整的搭配(通过添加词目和必要的语法关系中的第三个元素),并为每个搭配元素添加了斯洛文尼亚语形态词典Sloleks的ID。数据集主要用于知识库任务,语言为斯洛文尼亚语。
提供机构:
cjvt
原始信息汇总
数据集概述
名称: Collocations Dictionary of Modern Slovene 1.0 别名: Kolokacije 1.0
数据集内容
- 词汇类型: 包含35,862个词条,包括18,043个名词、5,148个动词、10,259个形容词和2,412个副词。
- 搭配数量: 7,310,983个搭配,自动从Gigafida 1.0语料库中提取。
- 提取方法: 使用专门为斯洛文尼亚语设计的Sketch语法,并通过Sketch Engine API进行自动提取。
- 参数设置: 包括最大搭配词数、最小搭配频率、最小语法关系频率、最小显著性(logDice)分数等。
- 后处理步骤: 移除重复句子的搭配,添加词头和必要的语法关系元素(如介词),并根据语法关系调整词头/搭配词的格。
- 附加信息: 为每个搭配元素添加Sloleks ID。
数据集结构
- 数据实例: 每个搭配作为一个单独的实例。
- 数据字段:
collocation: 搭配的字符串形式。cluster: 搭配的群集。words: 搭配的词形化。sloleks_ids: 搭配词的Sloleks ID。gramrel: 语法关系。sense: 搭配的意义。id_lex_unit: 搭配所属的词汇单元ID。lex_unit: 词汇单元。lex_unit_category: 词汇单元的类别。
语言
- 语言: 斯洛文尼亚语
许可证
- 许可证: CC BY-SA 4.0
贡献者
- 数据集创建者: Iztok Kosem等
- 数据集添加者: @matejklemen



