five

cjvt/komet

收藏
Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/komet
下载链接
链接失效反馈
官方服务:
资源简介:
KOMET 1.0是一个手工标注的斯洛文尼亚语隐喻表达语料库,包含了大约20万个单词(来自13,963个句子),这些句子来源于斯洛文尼亚的新闻、小说和在线文本。数据集支持的任务包括隐喻检测、隐喻类型分类和隐喻框架分类。数据集的创建过程涉及从斯洛文尼亚青年文学语料库MAKS中采样文本,并根据斯洛文尼亚标准语言词典标记出意义偏离其原意的单词作为隐喻,然后确定其类型。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集名称

KOMET 1.0

数据集描述

KOMET 1.0是一个手工标注的斯洛文尼亚语隐喻表达语料库,包含约200,000个单词(分布在13,963个句子中),来源于斯洛文尼亚的新闻、小说和在线文本。

支持的任务

  • 隐喻检测
  • 隐喻类型分类
  • 隐喻框架分类

语言

斯洛文尼亚语

数据集结构

数据实例

一个样本实例包含以下字段:

  • document_name: 文档名称
  • idx: 句子在文档中的索引
  • idx_paragraph: 段落在文档中的索引
  • idx_sentence: 句子在段落中的索引
  • sentence_words: 句子中的单词
  • met_type: 句子中的隐喻类型及其单词索引
  • met_frame: 句子中的隐喻框架及其单词索引

数据字段

  • document_name: 字符串,文档名称
  • idx: 无符号整数,句子在文档中的索引
  • idx_paragraph: 无符号整数,段落在文档中的索引
  • idx_sentence: 无符号整数,句子在段落中的索引
  • sentence_words: 句子中的单词列表
  • met_type: 隐喻类型及其单词索引的列表
  • met_frame: 隐喻框架及其单词索引的列表

数据集创建

数据来源于斯洛文尼亚青年文学语料库MAKS(新闻、小说和在线文本)。最初,意义偏离标准斯洛文尼亚语词典的单词被标记为隐喻,随后确定其类型。

许可证

CC BY-NC-SA 4.0

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作