mamed0v/dolly-15k-turkmen
收藏Turkmen Dolly 15k Dataset
概述
该数据集是原始Dolly 15k数据集的Turkmen语翻译版本。Dolly数据集是由Databricks创建的公开可用指令遵循数据集,包含15,000个高质量的人工生成提示-响应对。此Turkmen版本旨在扩展指令遵循数据集对Turkmen语言社区的可访问性。
数据集详情
- 原始数据集: Dolly 15k
- 语言: Turkmen
- 样本数量: 15,000
- 任务类型: 包括开放式生成、分类、提取等多种任务
- 翻译方法: Google Translate
文件格式
数据集以JSONL(JSON Lines)格式提供。每行文件代表一个具有以下结构的单个JSON对象:
json { "instruction": "原始指令(英文)", "context": "原始上下文(英文,如果适用)", "response": "原始响应(英文)", "category": "任务类别", "instruction_tk": "指令翻译为Turkmen", "context_tk": "上下文翻译为Turkmen(如果适用)", "response_tk": "响应翻译为Turkmen" }
示例: json { "instruction": "在《冰与火之歌》系列中,House Casterly的创始人是谁?", "context": "", "response": "Corlos, son of Caster", "category": "open_qa", "instruction_tk": ""Buz we ot aýdymy" seriýasynda "House Casterly" -ny esaslandyryjy kim?", "context_tk": "", "response_tk": "Karlos, Kasteriň ogly" }
致谢
- 原始Dolly 15k数据集创建者: Databricks
- 翻译: Google Translate
免责声明
该数据集中的翻译使用Google Translate完成。虽然这种方法允许快速翻译大量数据集,但用户应注意可能存在不准确、误译或丢失细微差别的情况,尤其是对于复杂或特定领域的内容。在使用此数据集进行需要高精度语言理解或生成的任务时,请谨慎行事。



