HindEnCorp
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/HindEnCorp
下载链接
链接失效反馈官方服务:
资源简介:
印地语和英语的平行语料库,以及 HindMonoCorp,印地语的单语语料库,发布版本 0.5。两个语料库都是从网络资源中收集的,主要用于统计机器翻译系统的训练。 HindEnCorp 由 274k 平行句子(390 万印地语和 380 万英语标记)组成。 HindMonoCorp 在 4400 万个句子中达到 7.87 亿个代币。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍

背景与挑战
背景概述
HindEnCorp是一个印地语-英语平行语料库,包含27.4万平行句子,同时附带印地语单语语料库HindMonoCorp,数据源自网络资源,主要用于统计机器翻译训练。HindMonoCorp规模达4400万个句子,总标记数超过7.87亿。
以上内容由遇见数据集搜集并总结生成



