KSE-RESEARCH-Group/sim-idioms
收藏Hugging Face2026-04-30 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/KSE-RESEARCH-Group/sim-idioms
下载链接
链接失效反馈官方服务:
资源简介:
SimIdioms是第一个对齐的乌克兰语-英语习语语料库,包含2,262个习语簇。每个簇包含习语字符串、翻译、上下文例句和两种语言的比喻意义。该数据集用于乌克兰习语翻译的研究和基准测试,是《SimIdioms: A Corpus and Benchmark for Ukrainian Idiom Translation》论文的配套资源。数据集的结构包括每个习语簇的ID、乌克兰语和英语的习语、例句、比喻意义及其翻译。乌克兰语内容的使用受到严格限制,仅限非商业学术研究使用。
SimIdioms is the first aligned Ukrainian–English idiom corpus, containing 2,262 clusters with idiom strings, translations, contextual example sentences, and figurative meanings in both languages. It serves as a resource and benchmark for Ukrainian idiom translation research and is the companion to the paper SimIdioms: A Corpus and Benchmark for Ukrainian Idiom Translation (UNLP 2026). The dataset schema includes each idiom clusters ID, Ukrainian and English idioms, examples, figurative meanings, and their translations. The Ukrainian-side content has additional usage restrictions, allowing only non-commercial academic research.
提供机构:
KSE-RESEARCH-Group
搜集汇总
数据集介绍

构建方式
SimIdioms是首个对齐的乌克兰语-英语习语语料库,囊括2262个习语簇,每个簇包含乌克兰语与英语两侧的习语字符串、翻译、上下文示例句及比喻义。其构建依托于三部权威资源:英语侧内容衍生自MIDAS数据集,乌克兰语侧内容则源自《乌克兰语-英语及英语-乌克兰语短语词典》与《乌克兰语短语单位词典》。经过精细的语义对齐与人工校验,形成了双语一一对应的结构化语料。
特点
该语料库以低资源语言乌克兰语为核心,覆盖3595条英语习语与2751条乌克兰语习语,并配套2885条英语示例句与2737条乌克兰语示例句。尤为独特的是,每个习语簇均包含原本与译后的比喻义解释,为跨语言比喻语言理解提供了稀缺的双语对齐资源。数据许可方面,英语侧采用CC BY-SA 4.0协议,乌克兰语侧则仅限非商业学术研究使用,体现了对原始出版版权的尊重。
使用方法
通过HuggingFace的datasets库即可便捷加载,调用load_dataset('KSE-RESEARCH-Group/sim-idioms', split='train')可直接获取训练集。每条数据以JSONL格式存储,结构清晰,包含id_、uk和en两个嵌套字段,分别容纳乌克兰语与英语侧的习语列表、例句列表及比喻义文本。用户可根据任务需求提取相应字段,适用于习语翻译、比喻义生成、跨语言语义对齐等自然语言处理研究的基准测试。
背景与挑战
背景概述
SimIdioms是由乌克兰人文研究所(KSE-RESEARCH-Group)于2026年创建的乌英对齐习语语料库,相关研究成果发表于《第四届乌克兰自然语言处理研讨会》(UNLP 2026)。该数据集聚焦于低资源语言乌克语与英语之间的习语翻译问题,核心研究旨在填补双语习语对齐语料的空白,为机器翻译和自然语言理解中的比喻性语言处理提供基准。作为首个大规模乌英习语语料库,SimIdioms包含2,262个簇,涵盖习语字符串、语境例句及比喻义,其发布显著促进了低资源语言多义词和习语翻译的研究,成为该领域的重要资源。
当前挑战
该数据集应对的核心领域挑战在于习语翻译的语义非组合性和文化特异性,即习语的整体含义无法从字面推导,且乌英两种语言缺乏直接对应。构建过程中面临的主要挑战包括:1)从乌克兰语短语词典(如Condor出版社的乌英短语词典)和英语MIDAS语料中提取并验证习语,确保对齐准确性;2)处理乌克兰侧内容的版权限制,仅允许非商业学术使用,限制数据分发和商业化应用;3)平衡语料规模与多样性,在低资源背景下收集足够的高质量语境例句和比喻义翻译,以支持可靠的模型评估。
常用场景
经典使用场景
在自然语言处理与计算语言学领域,习语翻译长期被视为一项高度挑战性的任务,其难点在于习语的语义通常无法通过字面组合推导得出。SimIdioms 数据集作为首个对齐的乌克兰语-英语习语语料库,为研究者提供了2,262个包含习语字符串、译文、上下文例句及比喻意义的聚类单元,从而构建了系统评估习语翻译质量的基准。该数据集的典型使用场景聚焦于习语的跨语言对齐与翻译任务,尤其适用于低资源语言乌克兰语的机器翻译模型训练与评估,以及多语言模型中习语理解能力的量化分析。
衍生相关工作
基于 SimIdioms 数据集,目前已经衍生出多项具有影响力的相关工作。其中,Kim 等人(2025)利用该语料库探究了大型语言模型在习语理解中究竟是依赖记忆还是推理机制,揭示了当前模型在处理比喻性语言时的深层局限性。同时,本研究团队发表的论文《SimIdioms: A Corpus and Benchmark for Ukrainian Idiom Translation》为后续的乌克兰语自然语言处理研究提供了标准化的评估框架。此外,该数据集还推动了针对低资源语言的短语对齐技术、跨语言习语知识库构建以及对比喻语言理解的跨模型评测等方向的深入研究。
数据集最近研究
最新研究方向
在当前低资源语言机器翻译与多模态语义理解的研究浪潮中,SimIdioms作为首个对齐的乌克兰语-英语习语语料库,聚焦于习语这一非字面语言的翻译与意义表征难题。该数据集整合了2262个习语簇,囊括习文字串、上下文例句及双方语言的比喻义,为评估大语言模型在习语理解上的鲁棒性提供了关键基准。其最新方向紧扣多语习语对齐与低资源场景下的跨语言迁移学习,通过细粒度的语义映射推动自然语言处理向更深层的文化意蕴理解迈进。这一成果不仅填补了乌克兰语计算短语学的空白,也为民俗语言学的可计算化与智能翻译系统的文化适应性研究奠定了基础,对探索语言间的概念隐喻映射与模型泛化能力具有标杆意义。
以上内容由遇见数据集搜集并总结生成



