kartikagg98/HINMIX_hi-en

Name: kartikagg98/HINMIX_hi-en
Creator: kartikagg98
Published: 2024-04-29 18:43:04
License: 暂无描述

Hugging Face2024-04-29 更新2024-06-11 收录

下载链接：

https://hf-mirror.com/datasets/kartikagg98/HINMIX_hi-en

下载链接

链接失效反馈

官方服务：

资源简介：

HINMIX是一个用于印地语-英语代码切换的大规模并行数据集。数据集包含4.2百万个完全并行的句子，分为6种印地语-英语形式。此外，数据集还包括由熟练的双语注释者手动翻译的黄金标准代码切换开发和测试集。数据集通过利用双语印地语-英语语料库构建，并包含多种子集，如纯印地语、代码混合的印地语句子、罗马化的印地语单词等。数据集可用于训练机器翻译模型，并可以与其他语言家族的语言结合使用，以零样本方式转移代码切换能力。

提供机构：

kartikagg98

原始信息汇总

数据集概述

HINMIX 是一个大规模的Hindi-English代码混合数据集，用于代码切换。数据集包含4.2M个完全平行的句子，涵盖6种Hindi-English形式。

数据集配置

配置名称	描述
lcsalign-en	包含英语文本的数据集配置
lcsalign-hi	包含Hindi文本的数据集配置
lcsalign-hicm	Hindi句子中混有英语单词的数据集配置
lcsalign-hicmrom	Hicm配置中Hindi单词被罗马化的数据集配置
lcsalign-hicmdvg	Hicm配置中英语单词被转写为Devanagari的数据集配置
lcsalign-hicmrom	Hicm配置中Hindi单词被罗马化的数据集配置，包含合成噪声以增强模型鲁棒性

数据集统计

配置名称	下载大小	数据集大小	训练集大小	验证集大小	测试集大小
lcsalign-en	318440274	455430727	455104487	21217	305023
lcsalign-hi	470820787	1085669545	1084853757	45670	770118
lcsalign-hicm	455501891	872809004	872213032	34530	561442
lcsalign-hicmdvg	491775164	1105288815	1104443176	47513	798126
lcsalign-hicmrom	337385029	467729549	467370942	20431	338176
lcsalign-noisyhicmrom	379419827	462773502	462418855	20246	334401

数据集使用

该数据集可用于训练机器翻译模型，特别是针对代码混合的Hindi翻译。此外，数据集还可以与其他类似语言家族的语言结合，以实现零样本代码混合能力转移。

数据集来源

数据集基于IITB Parallel corpus，该语料库包含从新闻文章、司法领域、印度政府网站、维基百科、书籍翻译等广泛内容。

数据收集和处理

数据集通过以下步骤生成：

从源-目标句子对S || T生成合成代码混合数据。
创建名词、形容词和量词的包含列表，作为替换候选。
使用POS标记器标记语料库。
使用fast-align学习平行语料库（Hi-En）之间的对齐模型。
使用启发式方法替换n-gram单词，创建多个代码混合映射。
使用多语言模型如XLM进行过滤。
添加合成噪声，如省略、切换、打字错误、随机替换。