SEACrowd/vndt

Name: SEACrowd/vndt
Creator: SEACrowd
Published: 2024-06-24 13:31:06
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/vndt

下载链接

链接失效反馈

官方服务：

资源简介：

VnDT是一个越南语依存树库，包含超过10,000个句子（219,000个单词）。该树库是从越南语树库自动转换而来的。

提供机构：

SEACrowd

原始信息汇总

Vndt 数据集概述

基本信息

名称: Vndt
语言: 越南语 (vie)
任务类别: 依存句法分析 (dependency-parsing)
标签: 依存句法分析 (dependency-parsing)
数据集版本:
- 源版本: 1.0.0
- SEACrowd版本: 2024.06.20
许可证: 未知 (unknown)

数据集描述

Vndt 是一个越南语依存句法树库，包含超过10,000个句子（219,000个单词）。该树库是通过自动转换输入的越南语树库生成的。

支持的任务

依存句法分析 (Dependency Parsing)

数据集使用

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/vndt", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("vndt", schema="seacrowd")

检查数据集的所有可用子集（配置名称）

print(sc.available_config_names("vndt"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

Vndt 数据集主页

引用

如果使用 Vndt 数据集，请引用以下内容： bibtex @InProceedings{Nguyen2014NLDB, author = {Nguyen, Dat Quoc and Nguyen, Dai Quoc and Pham, Son Bao and Nguyen, Phuong-Thai and Nguyen, Minh Le}, title = {{From Treebank Conversion to Automatic Dependency Parsing for Vietnamese}}, booktitle = {{Proceedings of 19th International Conference on Application of Natural Language to Information Systems}}, year = {2014}, pages = {196-207}, url = {https://github.com/datquocnguyen/VnDT}, }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

VnDT数据集的构建基于越南语树库的自动转换过程，涵盖了超过10,000个句子（约219,000个单词）。该数据集通过将原始越南语树库进行自动化处理，生成了一个结构化的依赖解析树库，为越南语的自然语言处理研究提供了丰富的语料资源。

特点

VnDT数据集的主要特点在于其大规模的语料库和自动化的构建方式，确保了数据的高质量和一致性。此外，该数据集专注于越南语的依赖解析任务，为研究者提供了在越南语语境下进行句法分析的宝贵资源。

使用方法

使用VnDT数据集可以通过`datasets`库或`seacrowd`库进行加载。通过`datasets`库，用户可以简单地调用`load_dataset`函数，并指定数据集名称和信任远程代码的选项。而通过`seacrowd`库，用户可以选择加载默认配置或特定配置的数据集，提供了更灵活的使用方式。

背景与挑战

背景概述

VnDT数据集，全称为越南语依存树库（Vietnamese Dependency Treebank），是由Dat Quoc Nguyen等研究人员于2014年创建的。该数据集包含了超过10,000个句子（约219,000个单词），专门用于越南语的依存句法分析任务。VnDT数据集通过自动转换原始的越南语树库生成，为越南语的自然语言处理研究提供了宝贵的资源。其主要研究问题集中在如何有效地将树库数据转换为依存句法分析所需的格式，从而推动越南语依存句法分析技术的发展。该数据集的发布对越南语自然语言处理领域具有重要意义，为相关研究提供了标准化的数据支持。

当前挑战

VnDT数据集在构建过程中面临多项挑战。首先，自动转换原始树库数据为依存句法分析格式需要克服数据结构和语法规则的复杂性，确保转换后的数据准确性和一致性。其次，越南语作为一种形态丰富的语言，其句法结构的复杂性增加了依存句法分析的难度。此外，数据集的规模和多样性也对模型的泛化能力提出了挑战。在应用层面，如何利用VnDT数据集提升越南语依存句法分析的精度和效率，仍是一个亟待解决的问题。

常用场景

经典使用场景

Vndt数据集在越南语依赖解析任务中展现了其经典应用价值。该数据集包含了超过10,000个句子，共计219,000个词汇，为研究者提供了丰富的语料资源。通过这些数据，研究者能够训练和评估依赖解析模型，从而提升越南语的自然语言处理能力。

解决学术问题

Vndt数据集有效解决了越南语依赖解析领域的关键学术问题。依赖解析是自然语言处理中的基础任务，对于理解句法结构和语义关系至关重要。Vndt通过提供大规模的标注数据，帮助研究者开发更精确的解析算法，推动了越南语自然语言处理技术的发展。

衍生相关工作

基于Vndt数据集，研究者们开发了多种依赖解析模型和算法，推动了越南语自然语言处理的研究进展。例如，一些研究工作利用Vndt数据集进行模型训练，提出了改进的解析算法，提升了解析的准确性和效率。此外，Vndt还激发了关于多语言依赖解析的跨语言研究，促进了东南亚语言处理技术的整体进步。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集