cjvt/gkomet
收藏Hugging Face2022-11-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/cjvt/gkomet
下载链接
链接失效反馈官方服务:
资源简介:
G-KOMET 1.0 是一个包含斯洛文尼亚口语中隐喻表达的语料库,涵盖了约50,000个词汇单位,分布在5695个句子中。该语料库包含来自斯洛文尼亚口语GOS语料库的样本,并包括信息性、教育性、娱乐性、私人和公共话语的平衡转录集。语料库还标注了成语和转喻,这些都被标注为隐喻类型。数据集的结构包括文档名称、句子索引、段落索引、句子中的单词、隐喻类型和隐喻框架等信息。
提供机构:
cjvt
原始信息汇总
数据集概述
数据集名称
G-KOMET 1.0
数据集描述
G-KOMET 1.0 是一个包含在斯洛文尼亚口语中的隐喻表达的语料库,涵盖约50,000个词汇单位,分布在5695个句子中。该语料库从Gos斯洛文尼亚口语语料库中抽样,包含信息性、教育性、娱乐性、私人及公共话语的平衡转录集合。
数据集特点
- 包含隐喻、转喻和隐喻框架的标注。
- 与KOMET数据集的标注方式不同,本数据集将隐喻和转喻均视为隐喻类型。
支持的任务
- 隐喻检测
- 转喻检测
- 隐喻类型分类
- 隐喻框架分类
语言
斯洛文尼亚语
数据集结构
数据实例
每个实例包含以下字段:
document_name: 文档名称idx: 句子在文档中的索引idx_paragraph: 段落在文档中的索引idx_sentence: 句子在段落中的索引sentence_words: 句子中的单词met_type: 句子中的隐喻类型及词索引met_frame: 句子中的隐喻框架及词索引
数据集创建
数据集包含从GOS斯洛文尼亚口语语料库中抽样的样本,并包含手动标注的隐喻相关词汇、习语和转喻表达。
许可证
CC BY-NC-SA 4.0
引用信息
@InProceedings{antloga2022gkomet, title = {Korpusni pristopi za identifikacijo metafore in metonimije: primer metonimije v korpusu gKOMET}, author={Antloga, v{S}pela}, booktitle={Proceedings of the Conference on Language Technologies and Digital Humanities (Student papers)}, year={2022}, pages={271-277} }



