malhajar/OpenOrca-tr

Name: malhajar/OpenOrca-tr
Creator: malhajar
Published: 2024-04-02 13:29:49
License: 暂无描述

Hugging Face2024-04-02 更新2024-06-22 收录

下载链接：

https://hf-mirror.com/datasets/malhajar/OpenOrca-tr

下载链接

链接失效反馈

官方服务：

资源简介：

OpenOrca-tr数据集是OpenOrca数据集的土耳其语翻译版本，旨在通过建立严格的土耳其语数据集集合来推进土耳其语大型语言模型（LLM）的发展。该数据集包含超过200万条条目，是土耳其语中的第一个SFT数据集。数据集主要用于自然语言处理领域的训练和评估。

提供机构：

malhajar

原始信息汇总

数据集概述

数据集信息

特征

id: 字符串类型
system_prompt: 字符串类型
question: 字符串类型
response: 字符串类型
system_prompt-turkish: 字符串类型
question-turkish: 字符串类型
response-turkish: 字符串类型

分割

train: 包含2352811个样本，总大小为8500889145字节

大小

下载大小: 4792916697字节
数据集大小: 8500889145字节

配置

default: 数据文件路径为data/train-*

大小分类

1M < n < 10M

许可证

任务分类

文本分类
标记分类
表格问答
问答
零样本分类
摘要
特征提取
文本生成
文本到文本生成

语言

土耳其语

数据集摘要

OpenOrca数据集是一个增强的FLAN Collection数据集合，目前包含约100万条GPT-4完成和约320万条GPT-3.5完成。该数据集主要用于自然语言处理领域的训练和评估。

使用方法

python from datasets import load_dataset

ds = load_dataset("malhajar/OpenOrca-tr")

引用

bibtex @misc{OpenOrca, title = {OpenOrca: An Open Dataset of GPT Augmented FLAN Reasoning Traces}, author = {Wing Lian and Bleys Goodson and Eugene Pentland and Austin Cook and Chanvichet Vong and "Teknium"}, year = {2023}, publisher = {HuggingFace}, journal = {HuggingFace repository}, howpublished = {url{https://https://huggingface.co/Open-Orca/OpenOrca}}, }

5,000+

优质数据集

54 个

任务类型

进入经典数据集