five

mamed0v/dolly-15k-turkmen

收藏
Hugging Face2024-07-06 更新2024-07-22 收录
下载链接:
https://hf-mirror.com/datasets/mamed0v/dolly-15k-turkmen
下载链接
链接失效反馈
官方服务:
资源简介:
Turkmen Dolly 15k数据集是Dolly 15k数据集的土库曼语翻译版本,旨在为土库曼语社区提供指令跟随数据集的访问。数据集包含15,000个样本,任务类型多样,包括开放式生成、分类、提取等。翻译通过Google Translate完成,文件格式为JSONL。每个JSON对象包含原始英文指令、上下文(如果适用)、响应、任务类别,以及对应的土库曼语翻译。

The Turkmen Dolly 15k dataset is a Turkmen translation of the original Dolly 15k dataset, aiming to extend the accessibility of instruction-following datasets to the Turkmen language community. The dataset contains 15,000 samples with various types of tasks, including open-ended generation, classification, extraction, and more. The translation was performed using Google Translate, and the dataset is provided in JSONL format. Each JSON object includes the original English instruction, context (if applicable), response, task category, and the corresponding Turkmen translation.
提供机构:
mamed0v
原始信息汇总

Turkmen Dolly 15k Dataset

概述

该数据集是原始Dolly 15k数据集的Turkmen语翻译版本。Dolly数据集是由Databricks创建的公开可用指令遵循数据集,包含15,000个高质量的人工生成提示-响应对。此Turkmen版本旨在扩展指令遵循数据集对Turkmen语言社区的可访问性。

数据集详情

  • 原始数据集: Dolly 15k
  • 语言: Turkmen
  • 样本数量: 15,000
  • 任务类型: 包括开放式生成、分类、提取等多种任务
  • 翻译方法: Google Translate

文件格式

数据集以JSONL(JSON Lines)格式提供。每行文件代表一个具有以下结构的单个JSON对象:

json { "instruction": "原始指令(英文)", "context": "原始上下文(英文,如果适用)", "response": "原始响应(英文)", "category": "任务类别", "instruction_tk": "指令翻译为Turkmen", "context_tk": "上下文翻译为Turkmen(如果适用)", "response_tk": "响应翻译为Turkmen" }

示例: json { "instruction": "在《冰与火之歌》系列中,House Casterly的创始人是谁?", "context": "", "response": "Corlos, son of Caster", "category": "open_qa", "instruction_tk": ""Buz we ot aýdymy" seriýasynda "House Casterly" -ny esaslandyryjy kim?", "context_tk": "", "response_tk": "Karlos, Kasteriň ogly" }

致谢

  • 原始Dolly 15k数据集创建者: Databricks
  • 翻译: Google Translate

免责声明

该数据集中的翻译使用Google Translate完成。虽然这种方法允许快速翻译大量数据集,但用户应注意可能存在不准确、误译或丢失细微差别的情况,尤其是对于复杂或特定领域的内容。在使用此数据集进行需要高精度语言理解或生成的任务时,请谨慎行事。

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作