cjvt/sloie
收藏Hugging Face2022-10-21 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/sloie
下载链接
链接失效反馈官方服务:
资源简介:
SloIE是一个手动标注的斯洛文尼亚语习惯用语数据集,包含29399个句子,涵盖了75个不同的表达方式,这些表达方式既可以有字面意义,也可以有习惯用语意义。每个词都进行了手动标注,标注内容包括词是否属于习惯用语、字面意义或意义不明确。数据集的结构包括句子、表达方式、词序、句子中的词以及每个词的意义标注。数据集的创建者包括Tadej Škvorc, Polona Gantar, Marko Robnik-Šikonja,并且数据集遵循CC BY-NC-SA 4.0许可。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称
Dataset of Slovene idiomatic expressions SloIE
数据集摘要
SloIE是一个手动标注的斯洛文尼亚语习语表达数据集,包含29399个句子,涉及75种不同的表达方式,这些表达可以具有字面或习语意义。每个标记都有适当的标注。习语表达从斯洛文尼亚词汇数据库中选取,仅包含那些可以同时具有字面和习语意义的表达。句子从Gigafida语料库中提取。
支持的任务
- 习语检测
语言
- 斯洛文尼亚语
数据集结构
数据实例
示例数据实例包含以下字段:
sentence: 原始句子expression: 标注的习语表达word_order: 表达中单词的位置编号sentence_words: 句子中的单词is_idiom: 表示每个单词是否具有习语意义("DA")、字面意义("NE")或意义不明确("NEJASEN ZGLED")。"*"表示该单词不是表达的一部分。
数据集创建者
- Tadej Škvorc
- Polona Gantar
- Marko Robnik-Šikonja
许可证
- CC BY-NC-SA 4.0



