SEACrowd/identifikasi_bahasa

Name: SEACrowd/identifikasi_bahasa
Creator: SEACrowd
Published: 2024-06-24 13:29:27
License: 暂无描述

Hugging Face2024-06-24 更新2024-06-29 收录

下载链接：

https://hf-mirror.com/datasets/SEACrowd/identifikasi_bahasa

下载链接

链接失效反馈

官方服务：

资源简介：

identifikasi-bahasa数据集包含印度尼西亚语、安汶语和爪哇语的文本样本。每个样本由干净的文本内容和语言标签组成。数据集通过手动输入过程进行分组，确保每个语言类别有足够的样本量。数据集排除了标点符号和数字，包含至少3000个安汶语、10000个爪哇语和3500个印度尼西亚语的条目，满足语言识别研究的最低标准。

提供机构：

SEACrowd

5,000+

优质数据集

54 个

任务类型

进入经典数据集