Samanantar
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/Samanantar
下载链接
链接失效反馈官方服务:
资源简介:
Samanantar 是最大的公开可用的印度语言平行语料库:阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语。该语料库有 4960 万个英语到印度语之间的句子对。
提供机构:
OpenDataLab
创建时间:
2022-04-29
搜集汇总
数据集介绍

背景与挑战
背景概述
Samanantar是规模最大的公开印度语言平行语料库,涵盖阿萨姆语、孟加拉语等11种印度语言。该数据集包含4960万个英语与这些印度语言之间的平行句子对,发布于2021年。
以上内容由遇见数据集搜集并总结生成



