kartikagg98/HINMIX_hi-en
收藏Hugging Face2024-04-29 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/kartikagg98/HINMIX_hi-en
下载链接
链接失效反馈官方服务:
资源简介:
HINMIX是一个用于印地语-英语代码切换的大规模并行数据集。数据集包含4.2百万个完全并行的句子,分为6种印地语-英语形式。此外,数据集还包括由熟练的双语注释者手动翻译的黄金标准代码切换开发和测试集。数据集通过利用双语印地语-英语语料库构建,并包含多种子集,如纯印地语、代码混合的印地语句子、罗马化的印地语单词等。数据集可用于训练机器翻译模型,并可以与其他语言家族的语言结合使用,以零样本方式转移代码切换能力。
HINMIX是一个用于印地语-英语代码切换的大规模并行数据集。数据集包含4.2百万个完全并行的句子,分为6种印地语-英语形式。此外,数据集还包括由熟练的双语注释者手动翻译的黄金标准代码切换开发和测试集。数据集通过利用双语印地语-英语语料库构建,并包含多种子集,如纯印地语、代码混合的印地语句子、罗马化的印地语单词等。数据集可用于训练机器翻译模型,并可以与其他语言家族的语言结合使用,以零样本方式转移代码切换能力。
提供机构:
kartikagg98
原始信息汇总
数据集概述
HINMIX 是一个大规模的Hindi-English代码混合数据集,用于代码切换。数据集包含4.2M个完全平行的句子,涵盖6种Hindi-English形式。
数据集配置
| 配置名称 | 描述 |
|---|---|
| lcsalign-en | 包含英语文本的数据集配置 |
| lcsalign-hi | 包含Hindi文本的数据集配置 |
| lcsalign-hicm | Hindi句子中混有英语单词的数据集配置 |
| lcsalign-hicmrom | Hicm配置中Hindi单词被罗马化的数据集配置 |
| lcsalign-hicmdvg | Hicm配置中英语单词被转写为Devanagari的数据集配置 |
| lcsalign-hicmrom | Hicm配置中Hindi单词被罗马化的数据集配置,包含合成噪声以增强模型鲁棒性 |
数据集统计
| 配置名称 | 下载大小 | 数据集大小 | 训练集大小 | 验证集大小 | 测试集大小 |
|---|---|---|---|---|---|
| lcsalign-en | 318440274 | 455430727 | 455104487 | 21217 | 305023 |
| lcsalign-hi | 470820787 | 1085669545 | 1084853757 | 45670 | 770118 |
| lcsalign-hicm | 455501891 | 872809004 | 872213032 | 34530 | 561442 |
| lcsalign-hicmdvg | 491775164 | 1105288815 | 1104443176 | 47513 | 798126 |
| lcsalign-hicmrom | 337385029 | 467729549 | 467370942 | 20431 | 338176 |
| lcsalign-noisyhicmrom | 379419827 | 462773502 | 462418855 | 20246 | 334401 |
数据集使用
该数据集可用于训练机器翻译模型,特别是针对代码混合的Hindi翻译。此外,数据集还可以与其他类似语言家族的语言结合,以实现零样本代码混合能力转移。
数据集来源
数据集基于IITB Parallel corpus,该语料库包含从新闻文章、司法领域、印度政府网站、维基百科、书籍翻译等广泛内容。
数据收集和处理
数据集通过以下步骤生成:
- 从源-目标句子对S || T生成合成代码混合数据。
- 创建名词、形容词和量词的包含列表,作为替换候选。
- 使用POS标记器标记语料库。
- 使用fast-align学习平行语料库(Hi-En)之间的对齐模型。
- 使用启发式方法替换n-gram单词,创建多个代码混合映射。
- 使用多语言模型如XLM进行过滤。
- 添加合成噪声,如省略、切换、打字错误、随机替换。
推荐
建议实施严格的过滤过程,如相似句子的去重和非语法句子的移除,以提高高质量模型的训练。



