希腊谚语数据集

Name: 希腊谚语数据集
Creator: 希腊雅典大学经济与商业学院
Published: 2025-10-15 17:26:52
License: 暂无描述

arXiv2025-10-15 更新2025-10-17 收录

下载链接：

https://kentrolaografias.gr

下载链接

链接失效反馈

官方服务：

资源简介：

希腊谚语数据集是一份包含超过一万一千五百条希腊谚语的集合，其中包括了标准希腊语和具有地方方言特色的谚语。该数据集由希腊雅典大学经济与商业学院的研究人员开发，旨在利用当前NLP技术的进步，对希腊谚语进行情感分析，从而揭示不同地区谚语情感分布的地理差异。数据集的创建过程涉及对谚语的收集、情感标注以及利用大型语言模型（LLM）进行情感预测。该数据集可用于研究谚语的地理分布、情感倾向以及主题内容，为谚语研究提供了新的视角和工具。

The Greek Proverb Dataset is a collection of over 11,500 Greek proverbs, covering both standard Greek and proverbs with regional dialect features. This dataset was developed by researchers from the School of Economics and Business, National and Kapodistrian University of Athens, Greece. Its purpose is to leverage advancements in contemporary natural language processing (NLP) technologies to perform sentiment analysis on Greek proverbs, thereby uncovering geographic disparities in the emotional distribution of proverbs across different regions. The dataset construction process involves proverb collection, sentiment annotation, and sentiment prediction using Large Language Models (LLMs). This dataset can be employed to investigate the geographic distribution, sentiment orientation, and thematic content of proverbs, offering novel perspectives and tools for proverb-related research.

提供机构：

希腊雅典大学经济与商业学院

创建时间：

2025-10-15

搜集汇总

数据集介绍

构建方式

在希腊谚语数据集的构建过程中，研究团队采用了多源数据融合与分层标注的方法。首先从gnomikologikon在线谚语库收集标准希腊语谚语，同时整合了帕夫洛普洛斯等人整理的方言变体数据集，形成涵盖11.5万条实例的原始语料。通过设计严谨的标注流程，先由13名希腊语母语者进行试点标注，识别出47种情感维度，进而建立三分类情感标注体系。特别采用莱文斯坦编辑距离算法实现标准谚语与方言变体的语义映射，最终构建包含430条黄金标注样本的核心数据集。

特点

该数据集最显著的特征在于其文化语言学价值与多维度标注体系。作为首个系统收录希腊方言谚语的大规模语料库，它不仅涵盖标准现代希腊语，更收录了来自纳克索斯、罗德岛等地区的方言变体，完整呈现了希腊语的语言多样性。数据集创新性地引入情感概率分布标注，通过序数回归将离散情感标签转化为连续概率分布，有效捕捉了谚语解读的主观性。其独特的时空维度标注——每条谚语均关联具体地理坐标，为研究语言现象的地域分布提供了前所未有的数据支撑。

使用方法

该数据集为计算语言学和民俗学研究提供了多层次的实践路径。研究者可基于情感概率分布开发新型情感分析模型，通过对比标准语与方言变体的情感差异探索语言接触现象。地理坐标数据支持空间语言学分析，可结合GIS技术绘制希腊谚语情感分布图谱。在文化传承领域，该数据集可作为数字人文研究的基准数据，用于追踪谚语传播路径和演变规律。模型开发者可利用其丰富的元数据训练方言识别模型，或构建基于谚语文化特征的知识推理系统。

背景与挑战

背景概述

希腊谚语数据集由Archimedes/Athena研究中心与雅典经济与商业大学的研究团队于2025年创建，旨在通过自然语言处理技术探索希腊谚语的情感特征。该数据集聚焦于希腊本土谚语及其方言变体，核心研究问题涉及谚语情感在希腊不同地区的分布规律及其与文化传承的关联。作为数字人文学与计算民俗学交叉领域的重要资源，该数据集填补了希腊语低资源语言在谚语研究中的空白，为跨文化比较和语言技术应用提供了新的实证基础。

当前挑战

希腊谚语数据集面临双重挑战：在领域问题层面，谚语情感分类受制于其高度隐喻性和主观解读特性，导致标注者间一致性较低，且传统情感极性任务难以捕捉谚语的非传统情感表达；在构建过程中，方言变体的收集与标准化存在困难，部分濒危方言数据稀缺，且谚语起源难以追溯，加之城市地区谚语记录的缺失，限制了数据集的全面性与代表性。

常用场景

经典使用场景

在语言文化研究领域，希腊谚语数据集为计算民俗学提供了重要支撑。该数据集最经典的应用场景在于通过自然语言处理技术分析谚语的情感极性分布，研究者利用大语言模型对希腊各地区谚语进行情感分类，绘制出希腊谚语情感地理分布图谱。这种研究方法不仅揭示了不同区域谚语的情感倾向差异，还展现了农业社会背景下谚语与自然环境的深刻联系，为跨区域文化比较研究建立了量化分析基础。

衍生相关工作

基于该数据集衍生的经典研究工作主要集中在三个方向。Pavlopoulos等人开发的希腊谚语图谱系统实现了谚语地域归属的自动标注，为后续研究奠定数据基础；Dimakis团队利用谚语数据进行方言规范化研究，探索了低资源语言处理的新途径；在方法论层面，研究者们开发了针对谚语特性的情感分析框架，包括基于编辑距离的方言变体匹配算法和适应谚语隐喻特性的提示工程策略。这些工作共同推动了计算民俗学这一交叉学科的发展，为传统文化资源的计算化分析提供了范例。

数据集最近研究