five

afrizalha/KamusZero-6M-Indonesian-TextData

收藏
Hugging Face2024-05-02 更新2024-06-11 收录
下载链接:
https://hf-mirror.com/datasets/afrizalha/KamusZero-6M-Indonesian-TextData
下载链接
链接失效反馈
官方服务:
资源简介:
KamusZero(Kamus-0)是一个由Mixtral8x7B生成的合成印尼语数据集,包含6,153,047个单词。该数据集主要用于研究,旨在创建基于同质且低容量数据集的流利语言模型。数据集不用于增强现有预训练模型,因其优势在于印尼语的语法准确性。数据集中的单词按频率分为A-D等级,建议使用频率为A和B的数据点以构建语义准确的模型。

KamusZero(Kamus-0)是一个由Mixtral8x7B生成的合成印尼语数据集,包含6,153,047个单词。该数据集主要用于研究,旨在创建基于同质且低容量数据集的流利语言模型。数据集不用于增强现有预训练模型,因其优势在于印尼语的语法准确性。数据集中的单词按频率分为A-D等级,建议使用频率为A和B的数据点以构建语义准确的模型。
提供机构:
afrizalha
原始信息汇总

数据集概述

基本信息

  • 许可证: MIT
  • 任务类别: 文本生成
  • 语言: 印尼语
  • 大小类别: 10万<n<100万

数据集描述

  • 名称: KamusZero (Kamus-0)
  • 生成方式: 由Mixtral8x7B生成
  • 目的: 作为印尼语的合成语言数据集,用于解释一系列印尼语单词的含义
  • 构建过程: 从Indo4B数据集中提取词频列表,并通过全印尼语词列表进行筛选
  • 数据量: 总计6,153,047个单词

使用建议

  • 适用场景: 主要用于研究,特别是创建基于同质且低容量数据集的流利语言模型
  • 注意事项: 不适合用于增强现有预训练模型,因为Mixtral在印尼语的语法准确性较高,但在印尼语任务中的表现不佳
  • 数据筛选建议: 开发者/研究者应仅使用数据集中freq列为A和B的数据点,这些数据点代表词频,分为A-D四个等级,按频率降序排列

创建者信息

  • 作者: Afrizal Hasbi Azizy
  • 致谢: 感谢Mistral提供的开源Mixtral模型和Groq提供的API
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作