five

cjvt/slo_collocations

收藏
Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/slo_collocations
下载链接
链接失效反馈
官方服务:
资源简介:
现代斯洛文尼亚语搭配词典1.0数据库包含35,862个词目(18,043个名词、5,148个动词、10,259个形容词和2,412个副词)和7,310,983个搭配,这些搭配是从Gigafida 1.0语料库中自动提取的。提取过程使用了专门为斯洛文尼亚语调整的Sketch语法,并通过手动评估确定了一系列参数。后处理步骤包括移除重复句子的搭配、准备完整的搭配(通过添加词目和必要的语法关系中的第三个元素),并为每个搭配元素添加了斯洛文尼亚语形态词典Sloleks的ID。数据集主要用于知识库任务,语言为斯洛文尼亚语。
提供机构:
cjvt
原始信息汇总

数据集概述

名称: Collocations Dictionary of Modern Slovene 1.0 别名: Kolokacije 1.0

数据集内容

  • 词汇类型: 包含35,862个词条,包括18,043个名词、5,148个动词、10,259个形容词和2,412个副词。
  • 搭配数量: 7,310,983个搭配,自动从Gigafida 1.0语料库中提取。
  • 提取方法: 使用专门为斯洛文尼亚语设计的Sketch语法,并通过Sketch Engine API进行自动提取。
  • 参数设置: 包括最大搭配词数、最小搭配频率、最小语法关系频率、最小显著性(logDice)分数等。
  • 后处理步骤: 移除重复句子的搭配,添加词头和必要的语法关系元素(如介词),并根据语法关系调整词头/搭配词的格。
  • 附加信息: 为每个搭配元素添加Sloleks ID。

数据集结构

  • 数据实例: 每个搭配作为一个单独的实例。
  • 数据字段:
    • collocation: 搭配的字符串形式。
    • cluster: 搭配的群集。
    • words: 搭配的词形化。
    • sloleks_ids: 搭配词的Sloleks ID。
    • gramrel: 语法关系。
    • sense: 搭配的意义。
    • id_lex_unit: 搭配所属的词汇单元ID。
    • lex_unit: 词汇单元。
    • lex_unit_category: 词汇单元的类别。

语言

  • 语言: 斯洛文尼亚语

许可证

  • 许可证: CC BY-SA 4.0

贡献者

  • 数据集创建者: Iztok Kosem等
  • 数据集添加者: @matejklemen
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作