five

cjvt/gkomet

收藏
Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/gkomet
下载链接
链接失效反馈
官方服务:
资源简介:
G-KOMET 1.0 是一个包含斯洛文尼亚口语中隐喻表达的语料库,涵盖了约50,000个词汇单位,分布在5695个句子中。该语料库包含来自斯洛文尼亚口语GOS语料库的样本,并包括信息性、教育性、娱乐性、私人和公共话语的平衡转录集。语料库还标注了成语和转喻,这些都被标注为隐喻类型。数据集的结构包括文档名称、句子索引、段落索引、句子中的单词、隐喻类型和隐喻框架等信息。
提供机构:
cjvt
原始信息汇总

数据集概述

数据集名称

G-KOMET 1.0

数据集描述

G-KOMET 1.0 是一个包含在斯洛文尼亚口语中的隐喻表达的语料库,涵盖约50,000个词汇单位,分布在5695个句子中。该语料库从Gos斯洛文尼亚口语语料库中抽样,包含信息性、教育性、娱乐性、私人及公共话语的平衡转录集合。

数据集特点

  • 包含隐喻、转喻和隐喻框架的标注。
  • 与KOMET数据集的标注方式不同,本数据集将隐喻和转喻均视为隐喻类型。

支持的任务

  • 隐喻检测
  • 转喻检测
  • 隐喻类型分类
  • 隐喻框架分类

语言

斯洛文尼亚语

数据集结构

数据实例

每个实例包含以下字段:

  • document_name: 文档名称
  • idx: 句子在文档中的索引
  • idx_paragraph: 段落在文档中的索引
  • idx_sentence: 句子在段落中的索引
  • sentence_words: 句子中的单词
  • met_type: 句子中的隐喻类型及词索引
  • met_frame: 句子中的隐喻框架及词索引

数据集创建

数据集包含从GOS斯洛文尼亚口语语料库中抽样的样本,并包含手动标注的隐喻相关词汇、习语和转喻表达。

许可证

CC BY-NC-SA 4.0

引用信息

@InProceedings{antloga2022gkomet, title = {Korpusni pristopi za identifikacijo metafore in metonimije: primer metonimije v korpusu gKOMET}, author={Antloga, v{S}pela}, booktitle={Proceedings of the Conference on Language Technologies and Digital Humanities (Student papers)}, year={2022}, pages={271-277} }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作