IndicCorp

Name: IndicCorp
Creator: OpenDataLab
Published: 2026-05-17 10:30:29
License: 暂无描述

OpenDataLab2026-05-17 更新2024-05-09 收录

下载链接：

https://opendatalab.org.cn/OpenDataLab/IndicCorp

下载链接

链接失效反馈

官方服务：

资源简介：

IndicCorp 是一个大型单语语料库，拥有大约 90 亿个代币，涵盖 12 种主要的印度语言。它是通过在几个月的时间内发现和抓取数千个网络资源（主要是新闻、杂志和书籍）而开发的。涵盖的语言：阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语语料库格式：语料库是一个大型文本文件，每行包含一个句子。公开发布的版本被随机洗牌、去标记和去重。下载语言 # 新闻文章* 句子标记 Link as 0.60M 1.39M 32.6M link bn 3.83M 39.9M 836M link en 3.49M 54.3M 1.22B link gu 2.63M 41.1M 719M link hi 4.95M 63.1M 1.86B link kn 3.76M 53.3M 713M link ml 4.75M 50.2M 721M link mr 2.31M 34.0M 551M link or 0.69M 6.94M 107M link pa 2.64M 29.2M 773M link ta 4.41M 31.5M 582M link te 3.98M 47.9M 674M链接获得的文章来自奥斯卡语料库

提供机构：

OpenDataLab

创建时间：

2022-08-19

搜集汇总

数据集介绍