five

cjvt/sloie

收藏
Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/sloie
下载链接
链接失效反馈
官方服务:
资源简介:
SloIE是一个手动标注的斯洛文尼亚语习惯用语数据集,包含29399个句子,涵盖了75个不同的表达方式,这些表达方式既可以有字面意义,也可以有习惯用语意义。每个词都进行了手动标注,标注内容包括词是否属于习惯用语、字面意义或意义不明确。数据集的结构包括句子、表达方式、词序、句子中的词以及每个词的意义标注。数据集的创建者包括Tadej Škvorc, Polona Gantar, Marko Robnik-Šikonja,并且数据集遵循CC BY-NC-SA 4.0许可。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集名称

Dataset of Slovene idiomatic expressions SloIE

数据集摘要

SloIE是一个手动标注的斯洛文尼亚语习语表达数据集,包含29399个句子,涉及75种不同的表达方式,这些表达可以具有字面或习语意义。每个标记都有适当的标注。习语表达从斯洛文尼亚词汇数据库中选取,仅包含那些可以同时具有字面和习语意义的表达。句子从Gigafida语料库中提取。

支持的任务

  • 习语检测

语言

  • 斯洛文尼亚语

数据集结构

数据实例

示例数据实例包含以下字段:

  • sentence: 原始句子
  • expression: 标注的习语表达
  • word_order: 表达中单词的位置编号
  • sentence_words: 句子中的单词
  • is_idiom: 表示每个单词是否具有习语意义("DA")、字面意义("NE")或意义不明确("NEJASEN ZGLED")。"*"表示该单词不是表达的一部分。

数据集创建者

  • Tadej Škvorc
  • Polona Gantar
  • Marko Robnik-Šikonja

许可证

  • CC BY-NC-SA 4.0
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作