five

mteb/IndicLangClassification

收藏
Hugging Face2025-05-06 更新2025-05-31 收录
下载链接:
https://hf-mirror.com/datasets/mteb/IndicLangClassification
下载链接
链接失效反馈
官方服务:
资源简介:
IndicLangClassification数据集是用于原生脚本和罗马化文本的22种印度语言的语言识别的测试集。它包含文本和标签特征,划分为训练集和测试集,是MTEB(Massive Text Embedding Benchmark)的一部分。

The IndicLangClassification dataset is a test set for language identification of 22 Indic languages in both native-script and Romanized text. It includes text and label features, split into training and test sets, and is a part of MTEB (Massive Text Embedding Benchmark).
提供机构:
mteb
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作