five

ViCon, ViSim-400

收藏
arXiv2018-04-19 更新2024-07-25 收录
下载链接:
https://www.ims.uni-stuttgart.de/forschung/ressourcen/experiment-daten/vnese-sem-datasets/
下载链接
链接失效反馈
官方服务:
资源简介:
本研究介绍了两个针对越南语的语义模型评估数据集:ViCon和ViSim-400。ViCon包含跨词类的同义词和反义词对,用于区分相似性和非相似性;ViSim-400则提供由人类评定的五种语义关系间的相似度等级。两个数据集均通过标准共现和神经网络模型验证,结果与相应的英语数据集相当。这些数据集对于自动词典生成、机器翻译等NLP应用具有重要意义,特别是在资源较少的语言环境中。

This study introduces two Vietnamese semantic model evaluation datasets: ViCon and ViSim-400. ViCon consists of cross-part-of-speech synonym and antonym pairs, which are used to differentiate between similar and non-similar word pairs. ViSim-400, by contrast, provides similarity ratings across five types of semantic relations annotated by human evaluators. Both datasets were validated using standard co-occurrence and neural network models, with performance comparable to their corresponding English datasets. These datasets hold great significance for NLP applications such as automatic dictionary generation and machine translation, especially in low-resource language contexts.
提供机构:
斯图加特大学机器语言处理研究所
创建时间:
2018-04-16
搜集汇总
数据集介绍
main_image_url
构建方式
在语义模型评估领域,针对越南语这类低资源语言,数据集的构建需兼顾语言学特性与计算需求。ViCon与ViSim-400的构建依托越南语计算词典(VCL)及越南语WordNet(VWN)作为核心资源。ViCon通过系统抽取名词、动词与形容词的同义词与反义词对,并依据词类与形态类别进行平衡采样,最终形成包含1400对词组的对比数据集。ViSim-400则进一步涵盖同义、反义、上下义、同下义及整体部分五种语义关系,从VCL与VWN中筛选400对词组,并在名词、动词与形容词间按关系类型与形态类别均衡分布,同时引入无关词对作为对照。
特点
该数据集显著特点在于其针对越南语缺乏形态标记的语言特性,系统覆盖多词类与语义关系,为语义相似性与关联性研究提供了精细标注。ViCon专注于同义与反义的二元对比,支持模型区分语义相似与相异;ViSim-400则通过人工标注的相似度评分(0-6分),呈现语义连续谱,其中同义词对评分最高,反义及无关词对评分最低,中间关系呈现渐进分布。数据标注经200名母语者完成,每对由15人评分,内部一致性指标(如Spearman's ρ达0.79)与英语标杆数据集相当,确保了标注可靠性。
使用方法
该数据集主要用于评估语义表示模型在越南语中的性能。研究者可基于ViCon计算词对余弦相似度,通过平均精度等指标衡量模型区分同义与反义的能力;ViSim-400则支持以Spearman相关系数对比模型预测分数与人工评分,验证模型在语义连续谱上的表现。使用前需进行越南语分词与词性标注,建议采用UETnlp等工具。数据集已通过标准共现模型(如PPMI)与神经网络模型(如Skip-gram、dLCE)验证,其表现与英语对应数据集具有可比性,适用于跨语言语义模型迁移研究及低资源语言NLP应用开发。
背景与挑战
背景概述
在自然语言处理领域,语义相似性与关联性模型的评估依赖于高质量的人工标注数据集。针对越南语这一低资源语言,斯图加特大学的Kim Anh Nguyen、Sabine Schulte im Walde与Ngoc Thang Vu于2018年共同构建了ViCon与ViSim-400数据集,旨在填补该语言在语义建模评估资源上的空白。ViCon专注于同义词与反义词的对比,涵盖名词、动词与形容词三大词类,为区分语义相似性与差异性提供基础;ViSim-400则通过人工标注的相似度评分,覆盖五种语义关系,以捕捉相似性与关联性之间的连续谱系。这两个数据集的建立不仅推动了越南语计算语言学的发展,也为跨语言语义模型比较提供了重要基准,其设计借鉴了英语领域的SimLex-999等经典资源,并通过标准共现与神经网络模型验证了与英语数据集相当的性能表现。
当前挑战
ViCon与ViSim-400数据集所应对的核心挑战在于低资源语言中语义建模的评估难题。具体而言,越南语缺乏形态标记(如格、性、数、时态),且现有语义资源稀缺,使得区分语义相似性与关联性、特别是同义词与反义词的判别变得尤为复杂。在构建过程中,研究人员面临多重挑战:首先,需从有限的越南语计算词典与词网中提取并平衡不同词类与语义关系的词对,确保数据集的代表性与多样性;其次,人工标注环节要求设计清晰的指导原则,以克服语义关系主观性带来的标注不一致问题,并通过严格的跨标注者一致性检验保障数据质量。此外,数据集的验证需适配越南语语料特性,在分词与词性标注工具尚不完善的背景下,实现与英语数据集可比的结果评估,进一步凸显了低资源语言数据处理的技术壁垒。
常用场景
经典使用场景
在自然语言处理领域,语义相似性评估是衡量词向量模型性能的核心任务。ViCon与ViSim-400作为越南语的首批语义评估数据集,其经典应用场景在于为分布语义模型提供基准测试平台。研究者通过计算词对间的余弦相似度,对比模型预测与人工标注的一致性,从而系统评估Skip-gram、dLCE等嵌入模型在低资源语言上的表征能力。这类评估不仅验证了跨语言语义建模的可行性,更为越南语NLP技术的迭代优化奠定了实证基础。
解决学术问题
该数据集有效解决了低资源语言语义建模中的关键学术问题。针对越南语缺乏形态标记、语义资源稀缺的现状,ViCon通过构建反义词与同义词对照集,明晰了相似性与相异性之间的概念边界;ViSim-400则通过五类语义关系的人工评分,揭示了语义关联连续体的内在结构。这两项资源填补了越南语语义评估标准的空白,使得研究者能够量化分析词向量模型在捕捉细微语义差异时的效能,推动了跨语言语义理论在非印欧语系中的验证与发展。
衍生相关工作
该数据集的发布催生了多项经典衍生研究。学者们借鉴其构建范式,相继开发了针对泰语、缅甸语等东南亚语言的语义评估基准。在模型创新方面,基于ViCon的对抗训练策略被整合进跨语言嵌入框架,提升了低资源语言的词对齐精度。同时,ViSim-400的多关系标注体系启发了层次化语义表示学习的研究,推动如语义角色标注、事件抽取等下游任务向更细粒度的语义理解方向发展,形成了以资源驱动技术演进的研究生态。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作