lightblue/mt_bench_vietnamese

Name: lightblue/mt_bench_vietnamese
Creator: lightblue
Published: 2024-07-04 08:48:19
License: 暂无描述

Hugging Face2024-07-04 更新2024-07-06 收录

下载链接：

https://hf-mirror.com/datasets/lightblue/mt_bench_vietnamese

下载链接

链接失效反馈

官方服务：

资源简介：

MT-Bench Vietnamese数据集是流行的MT-Bench数据集的越南语翻译版本。该数据集首先由GPT-4o进行翻译，然后由越南语母语者、JAIST的博士生Chau Nguyen进行校正。这是MT-Bench基准测试中新增的三种语言数据集之一，其他两种是印尼语和波兰语。数据集包含多个特征，如类别、对话轮次、参考文献和问题ID，并且主要用于训练目的。

This dataset contains the Vietnamese version of the MT-Bench dataset, translated by GPT-4o and corrected by a Vietnamese native speaker, Chau Nguyen. The dataset includes four main features: category, turns, references, and question_id. It is divided into a training set with 80 examples. The dataset is licensed under Apache 2.0 and is in Vietnamese.

提供机构：

lightblue

原始信息汇总

MT-Bench Vietnamese 数据集概述

数据集信息

特征:
- category: 类型为 string
- turns: 类型为 string 的序列
- references: 类型为 string 的序列
- question_id: 类型为 int64
分割:
- train: 包含 80 个样本，占用 56284 字节
下载大小: 33954 字节
数据集大小: 56284 字节
配置:
- default: 包含训练数据文件 data/train-*
许可证: Apache-2.0
语言: 越南语
名称: MT-Bench Vietnamese
规模类别: n<1K

数据集来源

该数据集是 MT-Bench 数据集的越南语翻译版本。
翻译首先由 GPT-4o 完成，然后由越南语母语者 Chau Nguyen 校对。
Chau Nguyen 是越南语母语者，同时也是 JAIST 的博士生。
该数据集是 MT-Bench 基准测试中添加的三种语言数据集之一。
上传者: Peter Devine (ptrdvn)

搜集汇总

数据集介绍

构建方式

MT-Bench Vietnamese数据集的构建，是基于MT-Bench的英文版进行越南语翻译，首先由GPT-4o完成初步翻译，随后由越南籍博士研究生Chau Nguyen进行校对，确保翻译质量。数据集包含四个主要字段：category、turns、references和question_id，其中train部分包含80个示例。

特点

该数据集的特点在于，它是MT-Bench多语言翻译评估基准的一部分，旨在为机器翻译研究提供高质量的多语言平行语料。它遵循Apache-2.0许可证，语言为越南语，数据量小于1K，适合用于小规模的机器翻译模型训练与评估。

使用方法

使用MT-Bench Vietnamese数据集时，用户可以通过HuggingFace的dataset库进行下载和加载。数据集以默认配置提供train部分的文件，用户可以根据需求对数据集进行进一步的划分和预处理，以适应不同的机器翻译任务和研究目的。

背景与挑战

背景概述

MT-Bench Vietnamese数据集，作为MT-Bench系列的一部分，旨在为机器翻译领域提供高质量的多语言平行语料库。该数据集的创建时间是近年，由Peter Devine上传至HuggingFace，其中越南语翻译首先由GPT-4o完成，后经越南籍博士Chau Nguyen校对。该数据集的核心研究问题是提高机器翻译的准确性和流畅性，对促进多语言机器翻译技术的发展具有重要的研究价值。

当前挑战

该数据集在构建过程中面临的挑战包括：1) 确保翻译的准确性和地道性，尤其是在不同语言间转换时的语义对等；2) 高质量翻译文本的获取与校对，这要求参与者的语言能力和对文化的深刻理解。此外，数据集规模相对较小，仅包含80个示例，这在机器学习领域可能不足以支撑大规模模型的训练和评估。

常用场景

经典使用场景

在自然语言处理领域，MT-Bench Vietnamese数据集的经典使用场景主要在于机器翻译的性能评估。该数据集通过提供越南语与其它语言的对齐文本，使得研究者能够评测机器翻译模型在越南语上的翻译准确性、流畅性以及忠实度，进而指导模型的优化与改进。

衍生相关工作

MT-Bench Vietnamese数据集的推出，促进了相关领域的研究工作，如跨语言信息检索、机器翻译中的错误分析以及多语言数据集的构建。这些衍生工作进一步拓展了数据集的应用范围，为多语言处理技术的发展提供了丰富的资源和研究基础。

数据集最近研究