SEACrowd/phomt

Name: SEACrowd/phomt
Creator: SEACrowd
Published: 2024-06-24 13:28:56
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/phomt

下载链接

链接失效反馈

官方服务：

资源简介：

PhoMT是一个高质量、大规模的越南语-英语平行数据集，包含3.02M句对，比基准数据集IWSLT15大2.9M句对。这是第一个大规模的越南语-英语机器翻译研究。数据集主要用于机器翻译任务，支持越南语和英语。

PhoMT is a high-quality and large-scale Vietnamese-English parallel dataset of 3.02M sentence pairs, which is 2.9M pairs larger than the benchmark Vietnamese-English machine translation corpus IWSLT15. This is the first large-scale Vietnamese-English machine translation study. The dataset is primarily used for machine translation tasks and supports Vietnamese and English.

提供机构：

SEACrowd

原始信息汇总

PhoMT 数据集概述

基本信息

名称: PhoMT
语言: 越南语 (vie), 英语 (eng)
任务类别: 机器翻译
标签: 机器翻译
许可证: MIT
版本:
- 源版本: 1.0.0
- SEACrowd版本: 2024.06.20

数据集描述

规模: 包含3.02M个越南语-英语平行句对，比IWSLT15基准数据集多2.9M对。
首次大规模越南语-英语机器翻译研究。

使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/phomt", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("phomt", schema="seacrowd")

查看所有可用子集（配置名称）

print(sc.available_config_names("phomt"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集主页

https://github.com/VinAIResearch/PhoMT

引用

bibtex @inproceedings{PhoMT, title = {{PhoMT: A High-Quality and Large-Scale Benchmark Dataset for Vietnamese-English Machine Translation}}, author = {Long Doan and Linh The Nguyen and Nguyen Luong Tran and Thai Hoang and Dat Quoc Nguyen}, booktitle = {Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing}, year = {2021}, pages = {4495--4503} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在机器翻译领域，构建高质量的双语平行语料库是提升模型性能的关键。PhoMT数据集通过精心筛选与对齐，汇集了302万句越南语-英语平行句对，其规模远超基准数据集IWSLT15。该数据集采用自动化与人工校验相结合的策略，确保句对在语义与语法层面的精确对应，为越南语-英语机器翻译研究提供了坚实的数据基础。

使用方法

研究人员可通过`datasets`库或`seacrowd`库便捷加载PhoMT数据集，支持多种配置选择以适应不同实验需求。使用`load_dataset`函数并指定信任远程代码，即可访问完整语料；通过`seacrowd`库还能灵活切换子集配置。该数据集适用于训练与评估机器翻译模型，促进越南语-英语自然语言处理技术的创新与应用。

背景与挑战

背景概述

在机器翻译领域，越南语-英语平行语料库的稀缺性长期制约着相关模型性能的提升。2021年，VinAI Research的研究团队Long Doan等人构建了PhoMT数据集，作为首个大规模、高质量的越南语-英语机器翻译基准数据集，其规模达到302万句对，显著超越了此前广泛使用的IWSLT15基准语料。该数据集的发布填补了东南亚语言资源的重要空白，为低资源语言机器翻译研究提供了关键支撑，推动了跨语言自然语言处理技术的发展。

当前挑战

PhoMT数据集致力于应对越南语-英语机器翻译这一低资源语言对的核心挑战，其难点在于处理越南语复杂的语言结构、丰富的形态变化以及文化特定表达。在构建过程中，研究团队面临数据收集与清洗的艰巨任务，需从异构网络来源中筛选高质量双语文本，并确保句对对齐的精确性。同时，维持翻译风格的连贯性与领域覆盖的多样性，亦是保障数据集实用价值的关键环节。

常用场景

经典使用场景

在机器翻译领域，PhoMT数据集以其大规模、高质量的越南语-英语平行语料库著称，为神经机器翻译模型的训练与评估提供了坚实基础。该数据集包含超过300万句对，远超传统基准如IWSLT15，使得研究者能够构建更精准、更鲁棒的翻译系统，尤其在处理越南语这一资源相对稀缺的语言时，展现出显著优势。

解决学术问题

PhoMT数据集有效解决了越南语-英语机器翻译研究中数据稀缺的核心挑战，为低资源语言对的模型优化提供了丰富语料。其高质量标注促进了翻译质量评估、跨语言对齐及多语言模型泛化能力等学术问题的深入探索，推动了自然语言处理领域在资源不平衡语言对上的理论进展与技术突破。

实际应用

在实际应用中，PhoMT数据集支撑了越南语与英语之间的实时翻译工具开发，广泛应用于跨境商务、教育交流及媒体内容本地化等领域。其大规模语料库助力企业构建高效、准确的翻译服务，提升跨语言沟通效率，同时为政府机构和文化组织提供了语言资源支持，促进东南亚地区的数字化发展。

数据集最近研究

SEACrowd/phomt

PhoMT 数据集概述

基本信息

数据集描述

使用方法

使用 datasets 库

使用 seacrowd 库

使用默认配置加载数据集

查看所有可用子集（配置名称）

使用特定配置加载数据集

数据集主页

引用

使用 `datasets` 库

使用 `seacrowd` 库