five

alpaca_hiligaynon.json

收藏
Hugging Face2026-03-18 更新2026-03-20 收录
下载链接:
https://huggingface.co/datasets/welyjesch/alpaca_hiligaynon.json
下载链接
链接失效反馈
官方服务:
资源简介:
Hiligaynon Alpaca 数据集是原始 Alpaca 指令跟随数据集的希利盖农语(伊隆戈语)翻译版本,旨在支持菲律宾低资源语言(特别是希利盖农语)的指令调优语言模型的研究与开发。数据集保留了原始 Alpaca 的结构,同时提供了高质量的指令、输入和输出的希利盖农语翻译。 数据集结构为每个样本包含以下字段: - **instruction**:希利盖农语的任务或问题描述 - **input**:可选的上下文信息(可能为空) - **output**:希利盖农语的预期响应 数据来源基于原始 Alpaca 数据集,通过机器翻译加人工后期编辑的方式从英语翻译为希利盖农语,并经过母语者验证。主要语言为希利盖农语,源语言为英语。 该数据集适用于以下场景: - 希利盖农语的语言模型指令调优 - 多语言自然语言处理研究 - 低资源语言建模 - 面向希利盖农语使用者的聊天机器人和助手开发 数据集存在一定局限性,包括可能包含翻译痕迹或不自然的表达方式、文化细微差异可能无法完全保留、部分指令可能与希利盖农语语言规范不完全匹配等。使用时应考虑伦理问题,包括原始数据集继承的偏见、潜在的误译或有害输出等,不建议未经进一步验证就用于高风险应用。
创建时间:
2026-03-12
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作