tdklab/HebrewMetaphors

Name: tdklab/HebrewMetaphors
Creator: tdklab
Published: 2024-01-28 09:22:04
License: 暂无描述

Hugging Face2024-01-28 更新2024-03-04 收录

下载链接：

https://hf-mirror.com/datasets/tdklab/HebrewMetaphors

下载链接

链接失效反馈

官方服务：

资源简介：

HebrewMetaphors数据集是一个用于希伯来语文本分类任务的数据集，特别是动词在句子中的字面意义和隐喻意义的分类。数据集包含从Twitter和Wikipedia收集的句子，每个句子都包含一个动词，并标注了该动词在句子中是字面意义还是隐喻意义。数据集的创建过程包括使用API从Twitter和Wikipedia提取句子，并使用Prodigy进行分类，分类结果由两个人分别进行两次确认以确保准确性。数据集的结构包括文本、来源、标签、动词和推文ID等字段。数据统计部分展示了不同动词的分类结果及其在训练集、验证集和测试集中的分布。

提供机构：

tdklab

原始信息汇总

数据集概述

数据集名称: HebrewMetaphors 语言: 希伯来语大小: 1K<n<10K 任务类别: 分词分类

数据集特征

text: 字符串类型，希伯来语句子，包含动词名称。
source: 字符串类型，文本来源，可能值为twitter或wikipedia。
label: 整数类型，分类标签，0表示字面意义，1表示隐喻。
verb: 字符串类型，希伯来语动词名称。
tweet_id: 字符串类型，推文ID，若文本来自Twitter，否则为None。

数据集结构

训练集: 4944个样本，总字节数669160。
验证集: 1271个样本，总字节数168781。
测试集: 1593个样本，总字节数206836。
总下载大小: 449410字节
数据集总大小: 1044777字节

数据统计

动词	协议后总数	因不同答案的争议	因不同忽略的争议	协议后字面总数	协议后隐喻总数	训练集分割	验证集分割	测试集分割
...	...	...	...	...	...	...	...	...
总计	7808	651	1291	4555	3253	4944	1271	1593

搜集汇总

数据集介绍

构建方式

在自然语言处理领域，隐喻识别作为一项复杂的语义分析任务，对数据集构建提出了较高要求。HebrewMetaphors数据集的构建过程体现了严谨的学术方法，研究团队首先选取了特定希伯来语动词作为分析对象，通过API从Twitter和Wikipedia两大平台采集包含这些动词的原始语句。随后利用Prodigy标注工具对语句中动词的用法进行人工标注，区分字面意义与隐喻意义。为确保标注质量，每条语句均由两名标注者独立完成两次分类，通过一致性检验来保证标注结果的可靠性，最终形成包含训练集、验证集和测试集的完整数据架构。

特点

该数据集在希伯来语隐喻识别研究中具有显著特色，其核心特征体现在多维度标注信息的整合。每条数据不仅包含原始希伯来语句文本，还标注了动词在特定语境中的语义类别（字面义或隐喻义），并记录了数据来源平台及原始ID信息。数据集涵盖7808条标注样本，涉及40个希伯来语动词在不同语境中的使用实例，其中4555条标注为字面用法，3253条标注为隐喻用法。这种结构既保留了社交媒体语言的动态特征，又兼顾了百科全书文本的规范性，为隐喻识别模型训练提供了丰富的语境变体。

使用方法

在计算语言学研究中，该数据集主要服务于希伯来语动词隐喻识别任务。研究者可通过加载标准化的训练集、验证集和测试集划分，构建基于深度学习的分类模型。数据集采用token-classification任务格式，每条数据包含文本、动词、标签等结构化字段，可直接适配BERT等预训练模型的微调流程。使用时可重点关注动词在语句中的语义角色分析，利用来源字段区分不同语域特征，通过tweet_id字段追溯社交媒体语境。该数据集已成功用于heBERT模型的微调实践，为希伯来语隐喻计算研究提供了基准测试平台。

背景与挑战

背景概述

在自然语言处理领域，隐喻识别作为计算语言学与认知科学交叉的前沿课题，长期面临资源稀缺的挑战，尤其对于希伯来语这类形态丰富的语言。tdklab/HebrewMetaphors数据集由以色列理工学院电气工程与计算机科学系的研究团队于近年创建，核心成员包括Doron Ben-chorin、Matan Ben-chorin与Tomer Tzipori，在Oren Mishali博士指导下完成。该数据集旨在构建首个针对希伯来语动词隐喻与字面用法的大规模标注语料，通过从Twitter和Wikipedia平台采集包含特定动词的句子，并利用Prodigy工具进行人工双重标注，最终形成包含7808个样本的二分分类数据集。其创新性在于将隐喻研究从英语等主流语言拓展至闪含语系，为希伯来语自然语言理解模型提供了关键的语义消歧基准，推动了跨语言隐喻计算理论的发展。

当前挑战

隐喻识别任务本身存在语义模糊性与文化依赖性的双重挑战，动词在特定语境中可能同时承载字面义与隐喻义，需要模型具备深层语义推理能力。数据集构建过程中，标注一致性成为显著难题，统计显示651例因标注者答案分歧、1291例因忽略标注而产生争议，反映出隐喻边界的主观判断差异。此外，数据源的不均衡性构成潜在偏差，Twitter文本的口语化特征与Wikipedia的书面语体形成风格鸿沟，部分动词在两类语料中的隐喻分布呈现极端差异，例如'lishdod_wiki'子集中隐喻标注为零，这种分布不均衡可能影响模型泛化性能。多源数据整合还需处理社交媒体噪声与维基百科结构化文本的异质性，对数据清洗与标准化提出更高要求。

常用场景

经典使用场景

在希伯来语自然语言处理领域，隐喻识别作为一项关键的语言理解任务，其挑战在于捕捉词语的非字面含义。HebrewMetaphors数据集通过标注句子中动词的字面或隐喻用法，为研究者提供了丰富的训练和评估资源。该数据集通常用于构建和优化分类模型，例如基于BERT架构的预训练模型进行微调，以自动识别希伯来语文本中的隐喻表达。这种应用不仅提升了模型对语言细微差别的敏感性，还推动了跨语言隐喻研究的进展。

衍生相关工作

基于HebrewMetaphors数据集，衍生了一系列经典研究工作，如tdklab/hebert-finetuned-hebrew-metaphor模型的开发，该模型通过微调HeBERT架构，实现了高效的希伯来语隐喻分类。这些工作扩展了多语言预训练模型的应用范围，并激发了后续研究，包括跨语言隐喻迁移学习和低资源语言处理技术的创新。相关成果已在学术会议和期刊中发表，推动了自然语言处理领域对隐喻现象的深入探索。

数据集最近研究