vtrans

github2025-02-17 更新2025-02-19 收录

下载链接：

https://github.com/vakyansh/vtrans

下载链接

链接失效反馈

官方服务：

资源简介：

一个针对印度语言的翻译数据集，包含正式和口语化的印地语-英语混合语翻译。

A translation dataset targeting Indian languages, which encompasses formal and colloquial Hindi-English code-switching translation pairs.

创建时间：

2025-02-17

原始信息汇总

vtrans v0.0.1

Overview

针对印地语和英语正式与非正式混合翻译的语料库
设计用于自然语言处理研究
版本v0.0.1包含15,000+条目作为概念验证

Problem Statement

大多数翻译系统使用正式、复杂的词汇，普通读者难以理解
传统数据收集方法导致产生字面翻译
vtrans提供正式、非正式翻译及混合语版本，反映现实世界使用情况

Dataset Structure

每个条目为JSON对象，包含以下字段：
- input: 原始英文文本
- formal: 正式翻译（印地语、可读正式转写、印地-英语混合正式版本）
- colloquial: 非正式翻译（印地语、可读非正式转写、印地-英语混合非正式版本）
- metadata: 输入句子的领域和情感标签，v0.0.2将包含性别特定信息

Key Features

正式与非正式翻译
混合语版本
丰富的元数据（领域、情感标签）
转写风格多样

Use Cases

机器翻译
混合语研究
语音合成与自动语音识别

Contributing

改进翻译和转写
添加新的元数据字段
修复现有条目的错误或不一致

License & Usage

代码与方法论：Apache License 2.0
数据集：CC-BY-4.0

搜集汇总

数据集介绍

构建方式

针对现有翻译系统产生的正式翻译难以被日常用户理解的现状，vtrans数据集通过专注于收集正式与口语化的印地语-英语混合语翻译平行数据，以期为自然语言处理研究提供更加贴近现实世界语言使用情况的平行语料库。该数据集的构建采取了一种新的范例，以15,000+条目的小型数据集作为概念验证（POC）。

特点

vtrans数据集的特点在于：提供了同一输入文本的正式与口语化翻译，捕捉了不同的语调和风格；包含了反映双语社区现实对话模式的混合语变体；拥有丰富的元数据，包括领域和情感标签，以促进情境化自然语言处理研究；支持多种转写风格，以帮助音的理解和发音。

使用方法

使用vtrans数据集，研究者可以针对机器翻译、双语交流模式研究、语音合成与自动语音识别等领域开展应用。用户需遵循Apache License 2.0和CC-BY-4.0的授权要求，正确引用并尊重数据集的版权信息。

背景与挑战

背景概述

vtrans数据集，旨在解决现有翻译系统生成翻译文本过于正式、难以被普通读者理解的问题，以及因传统数据收集方法导致的字面翻译问题。该数据集由一群专注于自然语言处理（NLP）研究的团队于近年创建，并以概念验证（POC）的形式，展示了一种收集平行语料库的新范例，以期更好地反映现实世界的语言使用情况。vtrans数据集的核心研究问题是提供既正式又口语化的翻译，以及反映双语或多语种社区实际使用的代码混合版本。该数据集自发布以来，对机器翻译、代码混合研究、语音合成与自动语音识别等领域产生了显著影响。

当前挑战

该数据集面临的挑战主要包括：如何确保翻译的口语化版本既能反映日常用语，又能保持翻译的准确性；如何在代码混合文本的收集和标注中保持一致性，以适应不同的研究领域和实际应用；以及如何在数据集中平衡不同领域和情感倾向的文本比例，以增强其适用性和泛化能力。构建过程中的挑战涉及数据收集、清洗、标注等多个环节，需要确保数据的多样性和高质量，同时遵守相关的版权和许可协议。

常用场景

经典使用场景

vtrans数据集针对现有翻译系统生成正式且复杂翻译的局限性，提供了正式与口语化的印地-英语混合语翻译。该数据集的经典使用场景在于，研究者可利用其进行机器翻译模型的训练与优化，以生成更加贴近日常使用习惯的翻译结果，尤其在处理双语或多语种社区中的交流时，其混合语版本更是不可或缺的资源。

衍生相关工作

vtrans数据集的发布促进了后续相关工作的衍生，如进一步的双语交流模式研究、翻译质量评估体系的构建，以及针对特定领域的翻译模型开发。这些相关工作基于vtrans的数据结构，拓展了数据集的应用范围，加深了学术界对双语和多语种交流现象的理解。

数据集最近研究