nepalimetaphorcorpus

Hugging Face2025-04-28 更新2025-04-29 收录

下载链接：

https://huggingface.co/datasets/bnabin/nepalimetaphorcorpus

下载链接

链接失效反馈

官方服务：

资源简介：

尼泊尔语隐喻检测数据集包含尼泊尔语句子，这些句子被标注为字面意义（Literal）和隐喻意义（Metaphorical）。该数据集旨在促进低资源语言如图像语和尼泊尔语等的比喻语言理解、隐喻检测和语言创造性建模的研究。

创建时间：

2025-04-25

原始信息汇总

Nepali Metaphor Detection Dataset 概述

数据集摘要

目的：用于尼泊尔语比喻句检测研究，支持低资源语言的比喻语言理解和语言模型微调。
语言：尼泊尔语（नेपाली）
任务类型：句子级比喻检测（二分类）
标签体系：
- 0：字面意义
- 1：比喻意义

数据集结构

样本格式： json {"text": "尼泊尔语句子", "label": 0或1}
示例： json {"text": "तिखो लीक जस्तो माने झन्झल्छ की को झाने।", "label": 1}

数据划分

推荐划分比例：
- 训练集：70%
- 验证集：15%
- 测试集：15%
采样方式：分层抽样（确保类别平衡）

标注信息

标注依据：基于尼泊尔语文学、文化和语言学特征
质量控制：双人标注+争议解决机制

许可信息

许可证类型：MIT License
需署名：未明确说明

引用格式

bibtex @dataset{your_name_2025_nepali_metaphor, title={Nepali Sentence-level Metaphor Detection Dataset}, author={Your Name}, year={2025}, url={Link to repository or HuggingFace} }

伦理声明

确保句子不包含偏见或有害刻板印象
承认文化特异性带来的局限性
仅限研究和教育用途

维护信息

维护者：未明确说明
联系方式：未明确说明

搜集汇总

数据集介绍

构建方式

在低资源语言处理领域，尼泊尔语隐喻语料库的构建采用了系统化的标注流程。该数据集通过人工标注方式收集尼泊尔语句子，由专业语言学家根据文学、文化和语言学特征进行双重标注，并通过共识机制解决分歧，确保标注质量。数据划分采用分层抽样方法，按照7:1.5:1.5的比例分为训练集、验证集和测试集，保持了类别分布的均衡性。

特点

作为稀缺的尼泊尔语隐喻资源，该数据集具有鲜明的语言学特色。其核心价值在于提供了句子级别的二元标注（字面意义与隐喻意义），特别关注尼泊尔文化中独特的隐喻表达。数据集结构简洁明晰，每个样本包含原始文本和分类标签，便于模型训练。其分层抽样的数据划分方式有效避免了类别不平衡问题，为低资源语言处理研究提供了可靠基准。

使用方法

该数据集主要应用于自然语言处理领域的隐喻识别研究。使用者可通过加载标准化的JSON格式数据，快速构建尼泊尔语隐喻分类模型。建议采用迁移学习策略，先利用预训练语言模型进行特征提取，再通过微调完成特定任务。数据集的标准化分割方案可直接用于模型训练、验证和测试全流程，其均衡的类别分布尤其适合评估模型在文化特定隐喻上的识别性能。

背景与挑战

背景概述

NepaliMetaphorCorpus数据集是专为尼泊尔语隐喻检测研究而构建的语言资源，由匿名研究团队于2025年发布。该数据集填补了形态复杂语言在比喻性语言理解领域的空白，特别针对尼泊尔语这类资源匮乏语言的文化特性和文学表达。数据集包含人工标注的句子级二元分类标签，旨在促进跨文化隐喻认知研究、低资源语言模型微调，以及南亚语言计算语言学的发展。其构建受到认知语言学理论的启发，重点关注语言表达中字面意义与隐喻意义的界限划分问题。

当前挑战

该数据集面临的核心挑战体现在认知标注与模型泛化两个维度。在领域问题层面，尼泊尔语高度依赖文化语境的特征使得隐喻边界判定存在主观性，需要解决语言学标注标准统一性的难题。构建过程中，低资源语言的特性导致语料获取困难，需克服方言变体处理、文学性与日常用语平衡等技术障碍。此外，隐喻表达的深层文化内涵对标注者的双语能力和文化素养提出特殊要求，使得质量控制的成本显著高于常规文本分类任务。

常用场景

经典使用场景

在自然语言处理领域，Nepali Metaphor Detection Dataset为研究者提供了一个独特的资源，专门用于探索尼泊尔语中的隐喻表达。该数据集通过标注句子级别的字面和隐喻标签，成为训练和评估隐喻检测模型的理想选择。尤其在低资源语言处理研究中，它为理解尼泊尔语中的比喻性语言提供了重要支持。

衍生相关工作

围绕这一数据集，已衍生出多项经典研究，包括基于深度学习的尼泊尔语隐喻分类模型，以及跨语言隐喻迁移学习框架。这些工作不仅验证了数据集的实用性，还推动了低资源语言处理技术的发展，为后续研究奠定了方法论基础。

数据集最近研究