SEACrowd/phost

Name: SEACrowd/phost
Creator: SEACrowd
Published: 2024-06-24 13:32:16
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/phost

下载链接

链接失效反馈

官方服务：

资源简介：

PhoST是一个高质量且大规模的英语-越南语语音翻译基准数据集，包含508小时的音频数据，由331K个三元组组成，每个三元组包括（句子长度的音频，英语源转录句，越南语目标字幕句）。该数据集支持语音识别、语音到文本翻译和机器翻译任务。

提供机构：

SEACrowd

原始信息汇总

PhoST 数据集概述

基本信息

名称: PhoST
语言: 英语 (eng), 越南语 (vie)
任务类别:
- 语音识别
- 语音转文本翻译
- 机器翻译
标签:
- 语音识别
- 语音转文本翻译
- 机器翻译

数据集详情

规模: 508 音频小时
数据结构: 包含 331K 个三元组，每个三元组由 (句子长度的音频, 英语源文本句子, 越南语目标字幕句子) 组成。

使用方法

使用 `datasets` 库

python from datasets import load_dataset dset = datasets.load_dataset("SEACrowd/phost", trust_remote_code=True)

使用 `seacrowd` 库

python import seacrowd as sc

使用默认配置加载数据集

dset = sc.load_dataset("phost", schema="seacrowd")

查看数据集的所有可用子集 (配置名称)

print(sc.available_config_names("phost"))

使用特定配置加载数据集

dset = sc.load_dataset_by_config_name(config_name="<config_name>")

数据集版本

源版本: 1.0.0
SEACrowd 版本: 2024.06.20

许可证

许可证类型: Creative Commons Attribution Non Commercial No Derivatives 4.0 (cc-by-nc-nd-4.0)

引用

bibtex @inproceedings{PhoST, title = {{A High-Quality and Large-Scale Dataset for English-Vietnamese Speech Translation}}, author = {Linh The Nguyen and Nguyen Luong Tran and Long Doan and Manh Luong and Dat Quoc Nguyen}, booktitle = {Proceedings of the 23rd Annual Conference of the International Speech Communication Association (INTERSPEECH)}, year = {2022} }

@article{lovenia2024seacrowd, title={SEACrowd: A Multilingual Multimodal Data Hub and Benchmark Suite for Southeast Asian Languages}, author={Holy Lovenia and Rahmad Mahendra and Salsabil Maulana Akbar and Lester James V. Miranda and Jennifer Santoso and Elyanah Aco and Akhdan Fadhilah and Jonibek Mansurov and Joseph Marvin Imperial and Onno P. Kampman and Joel Ruben Antony Moniz and Muhammad Ravi Shulthan Habibi and Frederikus Hudi and Railey Montalan and Ryan Ignatius and Joanito Agili Lopo and William Nixon and Börje F. Karlsson and James Jaya and Ryandito Diandaru and Yuze Gao and Patrick Amadeus and Bin Wang and Jan Christian Blaise Cruz and Chenxi Whitehouse and Ivan Halim Parmonangan and Maria Khelli and Wenyu Zhang and Lucky Susanto and Reynard Adha Ryanda and Sonny Lazuardi Hermawan and Dan John Velasco and Muhammad Dehan Al Kautsar and Willy Fitra Hendria and Yasmin Moslem and Noah Flynn and Muhammad Farid Adilazuarda and Haochen Li and Johanes Lee and R. Damanhuri and Shuo Sun and Muhammad Reza Qorib and Amirbek Djanibekov and Wei Qi Leong and Quyet V. Do and Niklas Muennighoff and Tanrada Pansuwan and Ilham Firdausi Putra and Yan Xu and Ngee Chia Tai and Ayu Purwarianti and Sebastian Ruder and William Tjhi and Peerat Limkonchotiwat and Alham Fikri Aji and Sedrick Keh and Genta Indra Winata and Ruochen Zhang and Fajri Koto and Zheng-Xin Yong and Samuel Cahyawijaya}, year={2024}, eprint={2406.10118}, journal={arXiv preprint arXiv: 2406.10118} }

搜集汇总

数据集介绍

构建方式

在语音翻译研究领域，构建高质量的双语语音数据集对于推动跨语言交流技术的发展至关重要。PhoST数据集通过精心设计的数据采集流程，整合了总计508小时的音频资源，形成了33.1万组三元数据单元，每单元包含句子长度的音频片段、对应的英文原文转录及越南语字幕翻译。该数据集源自VinAI研究团队的系统性工作，确保了音频与文本之间的精确对齐，为英语-越南语语音翻译任务提供了坚实的实证基础。

特点

PhoST数据集展现出多方面的显著特征，其规模宏大且质量上乘，涵盖了丰富的语音内容和语言现象。作为专注于英语-越南语转换的语音翻译基准，它不仅支持语音识别任务，还延伸至语音到文本翻译及机器翻译等多个研究方向。数据集遵循知识共享署名-非商业性使用-禁止演绎4.0许可协议，语言内容涵盖英语和越南语，为东南亚语言处理社区提供了宝贵的资源。

使用方法

研究人员可通过多种技术途径便捷地访问PhoST数据集。利用`datasets`库，用户只需调用`load_dataset`函数并指定数据集名称即可加载；若使用`seacrowd`库，则可通过`sc.load_dataset`函数或按配置名称加载特定子集。数据集的具体使用示例和详细指南可在SEACrowd数据中心的官方文档中查阅，为学术实验和模型训练提供了清晰的操作框架。

背景与挑战

背景概述

语音翻译作为自然语言处理与语音技术的交叉领域，其发展依赖于高质量、大规模的双语语音-文本对齐数据。PhoST数据集由VinAI Research的研究团队于2022年创建，旨在填补英语-越南语语音翻译领域的数据空白。该数据集包含508小时的音频数据，以及33.1万条（音频、英语原文、越南语译文）三元组，为语音识别、语音到文本翻译及机器翻译任务提供了重要资源。其发布不仅推动了低资源语言对的语音翻译研究，也为东南亚语言技术社区的数据基础设施建设贡献了力量。

当前挑战

PhoST数据集致力于解决英语-越南语语音翻译这一特定领域问题，其核心挑战在于处理两种语言在语音、语法及文化表达上的显著差异，例如越南语的声调系统与英语的音素结构之间的对齐难题。在构建过程中，研究人员面临数据采集与标注的双重困难：需要确保音频质量的一致性，同时实现高精度的句子级对齐与翻译，这涉及复杂的语音分割、转录与人工校对流程。此外，数据集遵循CC-BY-NC-ND 4.0许可，限制了商业使用与衍生作品的创建，可能影响其在更广泛应用场景中的可及性。

常用场景

经典使用场景

在语音翻译研究领域，PhoST数据集以其大规模、高质量的英越双语语音-文本对齐数据，成为评估端到端语音翻译模型性能的经典基准。该数据集包含超过508小时的音频及33.1万条三元组数据，为研究者提供了从英语语音直接生成越南语文本的标准化测试平台，尤其适用于探索跨语言语音转换中的语义保真度与翻译流畅性。

解决学术问题

PhoST数据集有效解决了低资源语言对语音翻译研究中数据稀缺的核心难题，为英越语言对的语音识别、机器翻译及语音到文本翻译任务提供了统一评估框架。其高质量标注缓解了传统方法中语音识别与文本翻译管道误差累积的问题，推动端到端模型在复杂语言现象如音素转换、语序重组等方面的理论突破，显著提升了跨语言语音处理的学术研究深度。

衍生相关工作

基于PhoST数据集，学术界衍生出多项经典研究工作，包括融合多模态特征的端到端语音翻译架构、针对越南语音韵特性的自适应预训练模型，以及低资源场景下的跨语言迁移学习算法。这些成果不仅推动了INTERSPEECH等顶级会议的前沿讨论，也为SEACrowd等多语言数据枢纽的构建提供了关键范例，持续激发东南亚语言计算领域的创新活力。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集

SEACrowd/phost

PhoST 数据集概述

基本信息

数据集详情

使用方法

使用 datasets 库

使用 seacrowd 库

使用默认配置加载数据集

查看数据集的所有可用子集 (配置名称)

使用特定配置加载数据集

数据集版本

许可证

引用

使用 `datasets` 库

使用 `seacrowd` 库