five

kartikagg98/HINMIX_hi-en

收藏
Hugging Face2024-04-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/kartikagg98/HINMIX_hi-en
下载链接
链接失效反馈
官方服务:
资源简介:
HINMIX是一个用于印地语-英语代码切换的大规模并行数据集。数据集包含4.2百万个完全并行的句子,分为6种印地语-英语形式。此外,数据集还包括由熟练的双语注释者手动翻译的黄金标准代码切换开发和测试集。数据集通过利用双语印地语-英语语料库构建,并包含多种子集,如纯印地语、代码混合的印地语句子、罗马化的印地语单词等。数据集可用于训练机器翻译模型,并可以与其他语言家族的语言结合使用,以零样本方式转移代码切换能力。

HINMIX是一个用于印地语-英语代码切换的大规模并行数据集。数据集包含4.2百万个完全并行的句子,分为6种印地语-英语形式。此外,数据集还包括由熟练的双语注释者手动翻译的黄金标准代码切换开发和测试集。数据集通过利用双语印地语-英语语料库构建,并包含多种子集,如纯印地语、代码混合的印地语句子、罗马化的印地语单词等。数据集可用于训练机器翻译模型,并可以与其他语言家族的语言结合使用,以零样本方式转移代码切换能力。
提供机构:
kartikagg98
原始信息汇总

数据集概述

HINMIX 是一个大规模的Hindi-English代码混合数据集,用于代码切换。数据集包含4.2M个完全平行的句子,涵盖6种Hindi-English形式。

数据集配置

配置名称 描述
lcsalign-en 包含英语文本的数据集配置
lcsalign-hi 包含Hindi文本的数据集配置
lcsalign-hicm Hindi句子中混有英语单词的数据集配置
lcsalign-hicmrom Hicm配置中Hindi单词被罗马化的数据集配置
lcsalign-hicmdvg Hicm配置中英语单词被转写为Devanagari的数据集配置
lcsalign-hicmrom Hicm配置中Hindi单词被罗马化的数据集配置,包含合成噪声以增强模型鲁棒性

数据集统计

配置名称 下载大小 数据集大小 训练集大小 验证集大小 测试集大小
lcsalign-en 318440274 455430727 455104487 21217 305023
lcsalign-hi 470820787 1085669545 1084853757 45670 770118
lcsalign-hicm 455501891 872809004 872213032 34530 561442
lcsalign-hicmdvg 491775164 1105288815 1104443176 47513 798126
lcsalign-hicmrom 337385029 467729549 467370942 20431 338176
lcsalign-noisyhicmrom 379419827 462773502 462418855 20246 334401

数据集使用

该数据集可用于训练机器翻译模型,特别是针对代码混合的Hindi翻译。此外,数据集还可以与其他类似语言家族的语言结合,以实现零样本代码混合能力转移。

数据集来源

数据集基于IITB Parallel corpus,该语料库包含从新闻文章、司法领域、印度政府网站、维基百科、书籍翻译等广泛内容。

数据收集和处理

数据集通过以下步骤生成:

  1. 从源-目标句子对S || T生成合成代码混合数据。
  2. 创建名词、形容词和量词的包含列表,作为替换候选。
  3. 使用POS标记器标记语料库。
  4. 使用fast-align学习平行语料库(Hi-En)之间的对齐模型。
  5. 使用启发式方法替换n-gram单词,创建多个代码混合映射。
  6. 使用多语言模型如XLM进行过滤。
  7. 添加合成噪声,如省略、切换、打字错误、随机替换。

推荐

建议实施严格的过滤过程,如相似句子的去重和非语法句子的移除,以提高高质量模型的训练。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作