UDD-1

Hugging Face2026-01-31 更新2026-02-02 收录

下载链接：

https://huggingface.co/datasets/undertheseanlp/UDD-1

下载链接

链接失效反馈

官方服务：

资源简介：

UDD-1是由Underthesea NLP创建的越南语通用依存关系数据集，遵循通用依存关系（Universal Dependencies）标注指南。数据集包含越南语文本，版本为1.1，涵盖法律和新闻两个领域，总句子数为20,000句，总词数约453,551个，采用Underthesea NLP工具包进行机器标注。数据来源于UTS_VLC（法律领域，10,000句）和UVN-1（新闻领域，10,000句）两个子集。数据集按照通用依存关系指南划分为训练集（18,282句，91.4%）、验证集（859句，4.3%）和测试集（859句，4.3%）。每个句子包含多个字段，如句子ID、原始文本、词元、通用词性标签、依存关系标签等。适用于词性标注、依存句法分析等自然语言处理任务。数据集采用CC BY-SA 4.0许可证发布。

创建时间：

2026-01-29

搜集汇总

数据集介绍

构建方式

在越南语自然语言处理领域，UDD-1数据集的构建体现了对多源语料进行标准化整合的现代方法。该数据集由Underthesea NLP团队创建，其核心语料来源于两个已公开的越南语数据集：UTS_VLC法律文本与UVN-1新闻文本，各贡献一万句。通过遵循通用依存关系（Universal Dependencies）的标注准则，利用Underthesea NLP工具包对总计两万句、约四十五万词符的原始文本进行了机器自动标注，生成了包括词性标注、依存句法分析等在内的多层次语言学信息。数据划分严格遵循通用依存关系的官方建议，按照约91.4%的训练集、4.3%的开发集和4.3%的测试集比例进行分割，确保了其在模型训练与评估中的实用性。

特点

UDD-1数据集的一个显著特征在于其领域构成的多样性，它均衡地融合了法律与新闻两种不同风格的越南语文本，这为模型理解不同语域的语言特征提供了宝贵资源。数据集严格遵循通用依存关系标准，提供了从词元、通用词性标签到依存关系标签等一套完整且一致的标注体系，极大地方便了跨语言句法分析研究的对比与迁移。其规模适中，包含约四十五万词符，既保证了足够的数据量供模型学习，又避免了因规模过大带来的处理负担。每个句子都带有明确标识其来源的ID前缀，使得研究者能够清晰地追溯数据出处并进行针对性的领域分析。

使用方法

对于希望利用UDD-1数据集的研究者而言，可以通过Hugging Face的`datasets`库便捷地加载。使用`load_dataset("undertheseanlp/UDD-1")`指令即可获取包含训练集、验证集和测试集的完整数据对象。加载后，用户可以像操作标准字典一样访问特定数据划分，例如`dataset["train"]`来获取训练数据。数据集中每条样本均以结构化的形式呈现，包含了原始文本、分词结果、词元、词性标签以及完整的依存句法树信息，这些字段可直接用于训练词性标注器、依存句法分析器等自然语言处理模型。数据集的标准化格式确保了其能够无缝接入基于通用依存关系框架开发的各类现有工具链与评估流程。

背景与挑战

背景概述

在自然语言处理领域，越南语作为一种资源相对稀缺的语言，长期以来缺乏高质量、标准化的句法标注资源，制约了相关模型的发展与应用。UDD-1数据集由Underthesea NLP团队于2026年创建，旨在为越南语构建一个遵循通用依存关系（Universal Dependencies）标注规范的基准语料库。该数据集整合了法律与新闻两大领域共计两万句文本，涵盖了约四十五万词例，其核心研究问题聚焦于为越南语的依存句法分析和词性标注任务提供标准化、可复现的评估数据，从而推动越南语信息处理技术的进步，并为多语言NLP研究提供重要的跨语言参照。

当前挑战

UDD-1数据集致力于解决越南语依存句法解析与词性标注任务中的挑战，这些任务本身因越南语独特的语言特性（如复杂的音节结构、丰富的虚词系统及灵活的语序）而颇具难度。具体而言，构建过程面临双重挑战：其一，在领域问题上，模型需准确识别法律文本中严谨的句式结构与新闻语体中灵活的表述方式之间的差异；其二，在数据构建中，挑战主要源于高质量人工标注资源的匮乏，迫使团队依赖Underthesea NLP工具包进行机器生成标注，这可能导致标注噪声与一致性问题的出现，进而对后续模型的训练与评估构成潜在影响。

常用场景

经典使用场景

在越南语自然语言处理领域，UDD-1数据集为句法分析和词性标注任务提供了标准化资源。该数据集整合了法律与新闻领域的文本，涵盖了约20,000个句子和超过45万个词元，遵循通用依存标注准则。研究者通常利用其训练集进行模型训练，验证集和测试集则用于评估句法解析器或词性标注器的性能，从而推动越南语语言模型的精细化发展。

衍生相关工作

基于UDD-1数据集，衍生了一系列经典研究工作，包括越南语依存解析器的开发与优化，以及跨语言句法模型的迁移学习实验。这些工作不仅推动了Underthesea NLP工具包的完善，还激发了更多针对越南语的语言资源创建，如扩展标注语料库和预训练语言模型，进一步丰富了该语言的学术生态。

数据集最近研究