noxneural/kashaloti
收藏Hugging Face2024-07-20 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/noxneural/kashaloti
下载链接
链接失效反馈官方服务:
资源简介:
Kashaloti_V0.1数据集是OpenOrca数据集的阿尔巴尼亚语翻译版本,主要用于自然语言处理领域的训练和评估。该数据集包含约1M GPT-4的完成情况,使用OPUS-MT模型从英语翻译成阿尔巴尼亚语,并进行了后续的清理和优化以确保语义准确性和连贯性。数据集支持问答、翻译、摘要和对话等任务,适用于阿尔巴尼亚语的语言建模、文本生成、文本增强和其他NLP任务。
The Kashaloti_V0.1 dataset is a translated version of the OpenOrca dataset into Albanian, primarily used for training and evaluation in the natural language processing field. This version specifically utilizes the ~1M GPT-4 completions, translated using the OPUS-MT model from English to Albanian, with subsequent refinement to ensure clarity and coherence. The dataset supports tasks such as question-answering, translation, summarization, and conversational, and is suitable for Albanian language modeling, text generation, text augmentation, and other NLP tasks.
提供机构:
noxneural
原始信息汇总
Kashaloti_V0.1
任务类别:
- 问答
- 翻译
- 摘要
- 对话
语言: sq
大小类别: 100K < n < 1M
数据集概述
该数据集是OpenOrca数据集的阿尔巴尼亚语翻译版本。原始数据集由增强的FLAN Collection数据组成,主要用于自然语言处理领域的训练和评估。此版本特别使用了约100万条GPT-4完成的数据,通过OPUS-MT模型从英语翻译成阿尔巴尼亚语,并进行了后续的精炼以确保清晰和连贯。
数据集归属
翻译过程:
翻译使用OPUS-MT模型从英语到阿尔巴尼亚语进行。然后对数据集进行精炼和清洗,以确保语义准确性和连贯性。
支持的任务和排行榜
该数据集可用于阿尔巴尼亚语的语言建模、文本生成、文本增强和其他自然语言处理任务。由于是翻译版本,也可用于跨语言理解。
语言
该数据集现在是阿尔巴尼亚语。
数据集结构
数据实例
该数据集中的数据实例代表从FLAN集合中翻译成阿尔巴尼亚语并由GPT-4或GPT-3.5查询增强的条目。响应随后输入到响应字段中。
数据字段
- id: 唯一标识符
- system_prompt: 呈现给GPT模型的系统提示
- question: 翻译成阿尔巴尼亚语的问题条目
- response: 模型对问题的响应
数据分割
数据未分割。
数据集创建
策划理由
该数据集被翻译以提供给阿尔巴尼亚研究人员和开发者一个增强的文本数据源。通过利用GPT-3.5和GPT-4的“推理跟踪”增强,它提供了模型在阿尔巴尼亚语中的推理能力洞察。
源数据
原始数据集是OpenOrca数据集,特别是约100万条GPT-4完成的数据。
数据集使用
使用案例
潜在应用包括阿尔巴尼亚语理解、模型训练、性能评估和其他自然语言处理任务。
使用注意事项
鉴于翻译过程,鼓励用户验证数据集的准确性和特定任务的相关性。建议定期检查更新和改进。
入门指南
该数据集可以通过Hugging Face数据集库访问。由于文件可能较大,建议使用流式传输。请关注Hugging Face上数据集的存储库以获取任何更新。



