pyutax68/OpenOrca-test-jp
收藏Hugging Face2023-07-15 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/pyutax68/OpenOrca-test-jp
下载链接
链接失效反馈官方服务:
资源简介:
---
license: mit
---
Trainデータセット日本語訳は、shumpei2525さんのレポジトリにあります。
https://huggingface.co/datasets/shumpei2525/OpenOrca-train-ja
Here is the dataset:shumpei2525/OpenOrca-train-ja
2023年7月14日時点
Open Orcaが公開したデータセット(GPT-3.5版のtestデータのみ)の翻訳です.
翻訳が失敗しているデータが存在します。
翻訳した結果、意味のないタスクとなっている場合があります。
ライセンスはmit引継ぎとしましたが、
商用利用に関しては、OpenAIの規約がよくわからないので注意してください。
---
以下は、Open OrcaデータセットのREADME.mdの日本語訳です。
---
# 🐋 Open Orca データセット! 🐋
Open Orca データセットのリリースを発表することを大変嬉しく思います!この豊富なFLANデータの拡張版は、Orca論文で概説されている分布とできるだけ一致するように調整されています。これは、高性能なモデルチェックポイントを生成する上で非常に役立っており、すべてのNLP研究者と開発者にとって貴重なリソースとなっています。
## データセットの概要
Open Orca データセットは、拡張されたFLANコレクションデータの集合です。現在、約100万のGPT-4の補完と約320万のGPT-3.5の補完が含まれています。これは、ORCA論文で提示された分布に従って表形式にまとめられ、現在は全体として意図されたデータセットの一部を表しています。このデータは、自然言語処理の分野での訓練と評価に主に使用されています。
## データセットの属性
以下の貢献者に特別な認識を与えたいと思います。彼らは大きな努力と献身を示してくれました:
- Teknium
- WingLian/Caseus
- Eric Hartford
- NanoBit
- Pankaj
- Winddude
- Rohan
- AlignmentLab.ai:
- Autometa
- Entropi
- AtlasUnified
- NeverendingToast
- NanoBit
- WingLian/Caseus
そしてもちろん、常にコミュニティ全体の支柱であるTheBlokeに感謝します。
## サポートされるタスクとリーダーボード
このデータセットは、言語モデリング、テキスト生成、テキスト拡張などのさまざまなタスクをサポートしています。これは、私たちのユニットテストで優れたパフォーマンスを示した複数の高性能モデルチェックポイントの生成に重要な役割を果たしています。リーダーボードに関する詳細情報は、利用可能になると更新されます。
## データセットの構造
### データインスタンス
このデータセットのデータインスタンスは、FLANコレクションからのエントリを表し、リストに記載された質問をGPT-4またはGPT-3.5に提出することで拡張されています。その後、レスポンスがレスポンスフィールドに入力されます。
### データフィールド
フィールドは以下の通りです:
- 'id':'niv'、't0'、'cot'、または'flan'のいずれかを含む一意の番号付き識別子。これは、'question'がどのソースのFLANコレクションサブミックスから取得されたかを示します。
- 'system_prompt':データポイントのGPT-3.5またはGPT-4 APIに提示されたシステムプロンプトを表します。
- 'question':FLANコレクションによって提供された質問エントリを表します。
- 'response':GPT-3.5またはGPT-4へのクエリから受け取ったその質問への応答を表します。
### データスプリット
データは分割されていません。
## データセットの作成
### キュレーションの理由
このデータセットは、研究者や開発者に拡張テキストデータのソースを提供するために作成されました。データポイントは主に、GPT-3.5とGPT-4の詳細なステップバイステップの推論能力に依存するコアのFLANコレクションデータの強化を提供することを目的としています。
## データセットの使用
### 使用例
このデータセットは、言語理解、自然言語処理、機械学習モデルの訓練、モデルのパフォーマンス評価などのタスクに使用できます。
### 使用上の注意点
これは進行中のデータセットであるため、定期的に更新と改善をチェックすることをお勧めします。また、データはOrca論文で概説されているガイドラインと推奨事項に従って使用するべきです。
## はじめに
このデータセットは、Hugging Faceのデータセットライブラリを使用して直感的にロードできるように整理されています。ファイルのサイズが大きいため、ストリーミングを使用することをお勧めします。定期的な更新とデータ生成の進行状況は、Hugging FaceのOpenOrcaリポジトリを通じて監視することができます。
---
以上が、Open Orca データセットの
README.mdの日本語訳です。
提供机构:
pyutax68
原始信息汇总
数据集概述
名称: Open Orca 数据集
描述: Open Orca 数据集是一个扩展的FLAN集合数据的集合,包含约100万个GPT-4的补全和约320万个GPT-3.5的补全。该数据集旨在尽可能与Orca论文中概述的分布一致,主要用于自然语言处理领域的训练和评估。
数据集属性
- 数据量: 约100万GPT-4补全和约320万GPT-3.5补全。
- 数据结构: 数据实例来自FLAN集合,每个实例包含一个由GPT-4或GPT-3.5响应的提问。
- 数据字段:
- id: 唯一编号识别符,指示问题来自哪个FLAN集合子集。
- system_prompt: 提供给GPT-3.5或GPT-4 API的系统提示。
- question: 由FLAN集合提供的提问。
- response: GPT-3.5或GPT-4对问题的响应。
数据集使用
- 用途: 可用于语言理解、自然语言处理、机器学习模型的训练和模型性能评估等任务。
- 注意事项: 由于数据集是进行中的项目,建议定期检查更新和改进。数据应遵循Orca论文中的指南和建议。
数据集创建
- 目的: 为研究者和开发者提供扩展文本数据的来源,主要目的是增强核心FLAN集合数据,依赖于GPT-3.5和GPT-4的详细步骤推理能力。
数据集支持的任务
- 支持的任务: 语言建模、文本生成、文本扩展等。
数据集结构
- 数据分割: 数据未分割。
数据集的获取和更新
- 获取方式: 可通过Hugging Face的OpenOrca仓库进行监控和获取。
- 更新信息: 定期的更新和数据生成进展可在Hugging Face的OpenOrca仓库中查看。



