five

kamus-besar-bahasa-indonesia

收藏
Hugging Face2025-08-08 更新2025-08-09 收录
下载链接:
https://huggingface.co/datasets/Lyon28/kamus-besar-bahasa-indonesia
下载链接
链接失效反馈
官方服务:
资源简介:
印度尼西亚语大词典数据集,包含用于文本生成、文本分类等任务的词汇数据,适用于语言模型训练,包含印度尼西亚语的词汇、字典等信息,数据集大小在10万到100万条之间。
创建时间:
2025-08-04
原始信息汇总

Kamus Besar Bahasa Indonesia (KBBI) Dataset 数据集概述

基本信息

  • 许可证: Apache-2.0
  • 任务类别:
    • 文本生成 (text-generation)
    • 文本分类 (text-classification)
    • 标记分类 (token-classification)
  • 语言: 印度尼西亚语 (id)
  • 标签:
    • 印度尼西亚语 (indonesian)
    • 词典 (dictionary)
    • KBBI (kbbi)
    • 词汇 (vocabulary)
    • 语言建模 (language-modeling)
    • 文本生成 (text-generation)
    • 自然语言处理 (nlp)
    • 印度尼西亚语 (bahasa-indonesia)
  • 数据集名称: Kamus Besar Bahasa Indonesia (KBBI) Dataset
  • 数据规模: 100K < n < 1M
搜集汇总
数据集介绍
main_image_url
构建方式
作为印度尼西亚语言资源的重要汇编,该数据集系统性地整合了权威词典KBBI的词汇条目与语义信息。构建过程采用自动化爬取与人工校验相结合的方式,确保词汇定义、词性标注及用法示例的准确性与完整性。数据经过多轮清洗与标准化处理,形成结构化文本语料,涵盖现代印尼语的核心词汇体系。
特点
本数据集全面收录逾十万条印尼语词汇,涵盖名词、动词、形容词等丰富词性类别,每条数据均包含音标、词源、释义及语境示例。其突出特点在于权威的语言规范性与时效性,既保留传统词汇的经典定义,亦纳入新兴术语与方言变体。数据以JSON格式分层组织,支持灵活的语义检索与语言学分析。
使用方法
研究者可借助本数据集开展印尼语语言模型训练、词汇语义分析或词典编纂等任务。使用时需加载预处理模块解析结构化字段,并通过API接口调用词条查询功能。建议结合Transformer架构进行词向量表征学习,或作为监督信号用于语法纠错、文本生成等下游应用。数据拆分遵循标准比例,确保训练与评估的可靠性。
背景与挑战
背景概述
印度尼西亚语作为全球第四大使用人口的语言,其语言资源建设对自然语言处理领域具有重要意义。Kamus Besar Bahasa Indonesia(KBBI)数据集由印度尼西亚语言发展培育局于1988年首次发布,历经多次修订扩充,已成为印尼语最权威的标准化词典数据库。该数据集系统收录了现代印尼语的词汇、释义、词类标注及用法示例,为印尼语语言模型的训练、文本生成和词汇分析提供了核心知识库,显著推动了东南亚语言技术的创新发展。
当前挑战
该数据集主要应对印尼语词汇语义消歧与形态学分析的复杂性挑战,包括处理高度衍生的词缀系统、方言变体与正式用语差异,以及新词术语的持续更新需求。在构建过程中面临纸质资料数字化工程浩大、语言规范变动导致的多版本整合困难,以及专业语言学标注需要大量人工校验等挑战,这些因素共同影响了数据集覆盖度与标注一致性的提升。
常用场景
经典使用场景
在印度尼西亚语自然语言处理研究中,该数据集常被用于语言模型的预训练与微调,特别是在词汇语义分析和语法结构建模方面。研究人员利用其丰富的词汇条目和释义信息,构建能够深入理解印尼语语言特性的神经网络模型,为下游任务提供坚实的语言学基础。
实际应用
在实际应用中,该数据集支撑了智能词典开发、教育辅助系统和跨语言信息检索平台的构建。企业利用其结构化词汇数据开发出具有自动释义生成和语法检查功能的语言工具,显著提升了印尼语使用者在数字环境中的语言处理体验和信息获取效率。
衍生相关工作
基于该数据集衍生的经典工作包括印尼语BERT预训练模型IndoBERT和词汇规范化系统KataBaku。这些成果不仅推动了印尼语分词器和语法检查器的发展,还为东南亚语言处理社区提供了可复用的技术框架,激发了更多针对低资源语言的创新研究。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作