alpaca_hiligaynon.json
收藏Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/welyjesch/alpaca_hiligaynon.json
下载链接
链接失效反馈官方服务:
资源简介:
Hiligaynon Alpaca 数据集是原始 Alpaca 指令跟随数据集的希利盖农语(伊隆戈语)翻译版本,旨在支持菲律宾低资源语言(特别是希利盖农语)的指令调优语言模型的研究与开发。数据集保留了原始 Alpaca 的结构,同时提供了高质量的指令、输入和输出的希利盖农语翻译。
数据集结构为每个样本包含以下字段:
- **instruction**:希利盖农语的任务或问题描述
- **input**:可选的上下文信息(可能为空)
- **output**:希利盖农语的预期响应
数据来源基于原始 Alpaca 数据集,通过机器翻译加人工后期编辑的方式从英语翻译为希利盖农语,并经过母语者验证。主要语言为希利盖农语,源语言为英语。
该数据集适用于以下场景:
- 希利盖农语的语言模型指令调优
- 多语言自然语言处理研究
- 低资源语言建模
- 面向希利盖农语使用者的聊天机器人和助手开发
数据集存在一定局限性,包括可能包含翻译痕迹或不自然的表达方式、文化细微差异可能无法完全保留、部分指令可能与希利盖农语语言规范不完全匹配等。使用时应考虑伦理问题,包括原始数据集继承的偏见、潜在的误译或有害输出等,不建议未经进一步验证就用于高风险应用。
创建时间:
2026-03-12



