five

gplsi/uji_parallel_va_es

收藏
Hugging Face2026-03-09 更新2025-12-20 收录
下载链接:
https://hf-mirror.com/datasets/gplsi/uji_parallel_va_es
下载链接
链接失效反馈
官方服务:
资源简介:
UJI_PARALLEL_VA_ES是一个用于瓦伦西亚语(VA)和西班牙语(ES)之间机器翻译的平行数据集。它包含对齐的句子对以及每对句子的来源文件。该数据集旨在促进机器翻译、跨语言NLP和语言分析的研究。数据来源于Universitat Jaume I (UJI)发布的网络新闻,经过严格的过滤和标准化处理,包括对齐过滤、语言识别和去重。数据集由欧盟NextGenerationEU资助,用于支持ALIA模型开发项目。

**UJI_PARALLEL_VA_ES** is a parallel dataset for machine translation between **Valencian (VA)** and **Spanish (ES)**. It consists of aligned sentence pairs along with the source file from which each pair was extracted. The dataset is intended for research in machine translation, cross-lingual NLP, and linguistic analysis. The parallel data is extracted from web news published by the Universitat Jaume I (UJI), and all data underwent rigorous filtering and normalization including alignment filtering, language identification, and deduplication. The dataset is funded by the EU – NextGenerationEU within the framework of the Desarrollo de Modelos ALIA project.
提供机构:
gplsi
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作