cjvt/komet
收藏Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/komet
下载链接
链接失效反馈官方服务:
资源简介:
KOMET 1.0是一个手工标注的斯洛文尼亚语隐喻表达语料库,包含了大约20万个单词(来自13,963个句子),这些句子来源于斯洛文尼亚的新闻、小说和在线文本。数据集支持的任务包括隐喻检测、隐喻类型分类和隐喻框架分类。数据集的创建过程涉及从斯洛文尼亚青年文学语料库MAKS中采样文本,并根据斯洛文尼亚标准语言词典标记出意义偏离其原意的单词作为隐喻,然后确定其类型。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称
KOMET 1.0
数据集描述
KOMET 1.0是一个手工标注的斯洛文尼亚语隐喻表达语料库,包含约200,000个单词(分布在13,963个句子中),来源于斯洛文尼亚的新闻、小说和在线文本。
支持的任务
- 隐喻检测
- 隐喻类型分类
- 隐喻框架分类
语言
斯洛文尼亚语
数据集结构
数据实例
一个样本实例包含以下字段:
document_name: 文档名称idx: 句子在文档中的索引idx_paragraph: 段落在文档中的索引idx_sentence: 句子在段落中的索引sentence_words: 句子中的单词met_type: 句子中的隐喻类型及其单词索引met_frame: 句子中的隐喻框架及其单词索引
数据字段
document_name: 字符串,文档名称idx: 无符号整数,句子在文档中的索引idx_paragraph: 无符号整数,段落在文档中的索引idx_sentence: 无符号整数,句子在段落中的索引sentence_words: 句子中的单词列表met_type: 隐喻类型及其单词索引的列表met_frame: 隐喻框架及其单词索引的列表
数据集创建
数据来源于斯洛文尼亚青年文学语料库MAKS(新闻、小说和在线文本)。最初,意义偏离标准斯洛文尼亚语词典的单词被标记为隐喻,随后确定其类型。
许可证
CC BY-NC-SA 4.0



