five

HindEnCorp

收藏
OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/HindEnCorp
下载链接
链接失效反馈
官方服务:
资源简介:
印地语和英语的平行语料库,以及 HindMonoCorp,印地语的单语语料库,发布版本 0.5。两个语料库都是从网络资源中收集的,主要用于统计机器翻译系统的训练。 HindEnCorp 由 274k 平行句子(390 万印地语和 380 万英语标记)组成。 HindMonoCorp 在 4400 万个句子中达到 7.87 亿个代币。
提供机构:
OpenDataLab
创建时间:
2022-05-23
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
HindEnCorp是一个印地语-英语平行语料库,包含27.4万平行句子,同时附带印地语单语语料库HindMonoCorp,数据源自网络资源,主要用于统计机器翻译训练。HindMonoCorp规模达4400万个句子,总标记数超过7.87亿。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作