IndicCorp
收藏OpenDataLab2026-05-17 更新2024-05-09 收录
下载链接:
https://opendatalab.org.cn/OpenDataLab/IndicCorp
下载链接
链接失效反馈官方服务:
资源简介:
IndicCorp 是一个大型单语语料库,拥有大约 90 亿个代币,涵盖 12 种主要的印度语言。它是通过在几个月的时间内发现和抓取数千个网络资源(主要是新闻、杂志和书籍)而开发的。涵盖的语言:阿萨姆语、孟加拉语、英语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、奥里亚语、旁遮普语、泰米尔语、泰卢固语语料库格式:语料库是一个大型文本文件,每行包含一个句子。公开发布的版本被随机洗牌、去标记和去重。下载 语言 # 新闻 文章* 句子 标记 Link as 0.60M 1.39M 32.6M link bn 3.83M 39.9M 836M link en 3.49M 54.3M 1.22B link gu 2.63M 41.1M 719M link hi 4.95M 63.1M 1.86B link kn 3.76M 53.3M 713M link ml 4.75M 50.2M 721M link mr 2.31M 34.0M 551M link or 0.69M 6.94M 107M link pa 2.64M 29.2M 773M link ta 4.41M 31.5M 582M link te 3.98M 47.9M 674M链接获得的文章来自奥斯卡语料库
提供机构:
OpenDataLab
创建时间:
2022-08-19
搜集汇总
数据集介绍

背景与挑战
背景概述
IndicCorp是一个大型单语语料库,包含约90亿个代币,覆盖12种主要印度语言,通过抓取网络资源构建而成。语料库以每行一个句子的格式提供,并经过随机洗牌、去标记和去重处理。
以上内容由遇见数据集搜集并总结生成



