VIVID
收藏github2026-03-04 更新2026-03-07 收录
下载链接:
https://github.com/ReML-AI/VIVID
下载链接
链接失效反馈官方服务:
资源简介:
VIVID(越南语成语验证和解释深度)是一个基于文化的基准数据集,用于评估大型语言模型对越南语比喻语言的理解能力。数据集包含1,707个越南成语和谚语,发布的基准集包含1,636个经过人工验证的成语-解释对。每个成语/谚语都标注了五个复杂性特征和七个语义主题。
VIVID (Vietnamese Idiom Validation and Interpretation Depth) is a culture-grounded benchmark dataset developed to assess large language models' (LLMs) capability of understanding Vietnamese figurative language. The dataset comprises 1,707 Vietnamese idioms and proverbs, while the released benchmark subset contains 1,636 manually validated idiom-explanation pairs. Each idiom or proverb is annotated with five complexity features and seven semantic themes.
创建时间:
2026-03-02
原始信息汇总
VIVID 数据集概述
数据集基本信息
- 数据集名称:VIVID (Vietnamese Idioms for Validation and Interpretation Depth)
- 数据规模:包含 1,707 个越南语成语和谚语。经过人工验证后,用于评估的基准集包含 1,636 个成语-解释对。
- 核心目标:作为一个文化根基的基准,用于评估大语言模型对越南语比喻性语言的理解能力。
数据标注与分类
语言复杂性特征
每个成语/谚语标注了 5个 对大语言模型尤其容易出错的复杂性特征:
- 仅字面表达 / 字面化过度隐喻
- 语用细微差别(讽刺/反语/负面含义)
- 不常见词汇
- 过时/陈旧术语
- 习俗/民间知识为基础的表达
语义主题分类
每个条目被归类到 7个 语义主题中: 爱情、美德、批评、工作与自然、社会、人生教训、其他。
数据集文件
数据集文件位于项目结构的 dataset/ 目录下:
VIVID_Dataset.csv:包含 1,636 个带有真实解释的成语。VIVID_Semantic_Themes.csv:包含 7 个语义主题标签。VIVID_Linguistic_Complexity_Taxonomys.csv:包含 5 个复杂性特征标签。
评估框架与任务
本README描述了一个用于VIVID基准的模块化命令行评估框架,支持论文中描述的所有评估任务:
- 生成式解释评估 (
generate):为成语/谚语生成越南语解释。 - LLM作为评判员打分 (
judge):使用基于方面的评分标准(0-5分)对解释进行评分。 - 判别式分类 (
discriminate):使用lm-eval-harness进行多项选择的主题/模式分类。
评分协议与人工评估参考
- 主要评判模型:默认使用 GPT-4.1 作为基于方面的评判员。
- 评分策略:基于方面的评估与人类判断的一致性最强(Cohen’s κ = 0.792)。
- 人工评估结果:在200个随机样本上的人工评估显示,两位越南语母语标注者之间具有高度一致性:Cohen’s κ = 0.913, Pearson相关系数 = 0.912(基于0-5分制)。
搜集汇总
数据集介绍

构建方式
在越南语文化背景下,VIVID数据集的构建过程体现了对语言复杂性的深刻洞察。该数据集的核心内容源自1,707条越南语成语和谚语,经过人工严格筛选与验证后,最终形成了包含1,636组成语-解释对的标准评测集。每个条目均经过系统化标注,不仅涵盖了七个语义主题类别,如爱情、美德、批评等,还细致标注了五种语言复杂性特征,这些特征专门针对大语言模型在理解比喻性语言时常见的错误类型而设计,包括仅字面表达、语用细微差别、生僻词汇、古旧术语以及基于民俗知识的表达。
使用方法
该数据集通过模块化的命令行框架提供了灵活多样的使用途径。研究人员可通过generate命令调用开源模型或API模型生成越南语解释,支持零样本和少样本提示策略。judge命令则利用GPT-4.1作为评判者,按照语义准确性、细微差别、流畅性和完整性四个标准对生成解释进行0-5分制评分,其基于方面的评估协议已通过人类验证。discriminate命令借助lm-evaluation-harness实现主题分类和模式分类任务,可评估模型在语义主题识别和语言复杂性特征判别方面的能力。完整的评估流程可通过full-pipeline命令一键执行,框架还支持中断续跑功能,确保大规模评估的稳定性与效率。
背景与挑战
背景概述
在自然语言处理领域,对大型语言模型在低资源语言与文化特定语境下的理解能力进行评估,已成为一项关键研究议题。VIVID(越南语习语验证与解释深度)基准数据集应运而生,专注于评估模型对越南语习语和谚语的比喻性语言理解。该数据集由研究团队精心构建,收录了1,707条越南语习语与谚语,并经过人工验证形成了包含1,636对条目-解释的评测集合。每条数据均标注了五种易导致模型出错的复杂性特征(如仅字面表达、语用细微差别、罕见词汇等)以及七大语义主题(如爱情、美德、批评等),旨在系统考察模型对文化内涵与语言微妙之处的把握能力。其采用的基于方面的评估协议与人类判断具有高度一致性(Cohen's κ = 0.792),为越南语自然语言理解研究提供了坚实的数据基础与科学的评测框架。
当前挑战
VIVID数据集致力于解决大型语言模型在越南语比喻性语言理解任务中面临的深层挑战,这些挑战主要体现在语义复杂性与文化特异性方面。习语与谚语往往蕴含丰富的隐喻、讽刺及历史典故,模型需克服字面意义过度泛化、语用细微差别误判以及 archaic 词汇理解困难等问题。在数据集构建过程中,研究人员需应对高质量标注的艰巨性,包括确保母语标注者对文化背景与语言微妙之处的一致理解,以及为多维度复杂性特征建立清晰、可操作的分类体系。此外,构建覆盖广泛语义主题且平衡各类复杂性特征的语料库,亦需克服低资源语言中高质量语料稀缺的瓶颈,确保数据集的代表性与评测的全面性。
常用场景
经典使用场景
在自然语言处理领域,特别是针对低资源语言与文化特定表达的理解,VIVID数据集为评估大语言模型在越南语习语和谚语解释方面的能力提供了标准化的测试平台。该数据集通过生成解释、基于LLM的评分以及判别性分类三大任务,系统性地考察模型对越南文化中隐喻、讽刺及古语等复杂语言现象的把握程度,成为衡量模型跨文化语言理解深度的关键工具。
解决学术问题
VIVID数据集有效解决了大语言模型在低资源语言文化语境下面临的语义理解瓶颈问题,特别是针对越南语中富含文化内涵的习语和谚语。通过标注五类语言学复杂特征和七种语义主题,该数据集为研究者提供了细粒度的评估维度,使得模型在隐喻解析、语用细微差别识别以及古语理解等方面的性能得以量化分析,从而推动跨语言自然语言理解技术的理论进展与方法创新。
实际应用
在实际应用中,VIVID数据集可服务于越南语教育科技、跨文化交际辅助工具以及本地化内容生成系统。例如,在语言学习平台中,基于该数据集训练的模型能够为学习者提供准确的习语解释和文化背景说明;在机器翻译与内容创作领域,模型对越南语文化特定表达的深度理解有助于生成更自然、符合本地语用习惯的文本,提升人机交互的质量与效率。
数据集最近研究
最新研究方向
在跨文化自然语言处理领域,VIVID数据集作为越南语习语理解的基准,正推动着大语言模型在低资源语言与文化特定表达上的深度评估研究。前沿探索聚焦于结合语言学复杂性与语义主题的多维度评估框架,利用基于方面的LLM-as-a-Judge协议,以GPT-4.1为裁判,在零样本、思维链等提示策略中寻求与人类评估的高一致性,其科恩κ系数达0.792。该框架支持生成解释、判别分类及评分全流程,不仅揭示了模型在字面过度隐喻、语用细微差别等五大复杂特征上的薄弱环节,还通过模块化命令行工具促进了开源与API模型的高效比较,为东南亚语言AI的公平性与文化适应性研究提供了关键基础设施。
以上内容由遇见数据集搜集并总结生成



