elyza/ELYZA-tasks-100
收藏Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elyza/ELYZA-tasks-100
下载链接
链接失效反馈官方服务:
资源简介:
本数据集是用于评估经过instruction-tuning的模型的日语数据集,包含100个复杂的任务。这些任务涵盖了从摘要修正到复杂数学问题解决等多种类型,每个任务都有详细的评估标准,以确保评估的一致性和准确性。数据集旨在评估模型作为有用的AI助手的能力,要求模型能够生成礼貌且有用的输出。
本数据集是用于评估经过instruction-tuning的模型的日语数据集,包含100个复杂的任务。这些任务涵盖了从摘要修正到复杂数学问题解决等多种类型,每个任务都有详细的评估标准,以确保评估的一致性和准确性。数据集旨在评估模型作为有用的AI助手的能力,要求模型能够生成礼貌且有用的输出。
提供机构:
elyza
原始信息汇总
ELYZA-tasks-100: 日本語instructionモデル評価データセット
データセット概要
基本情報
- タスクカテゴリ: text2text-generation
- 言語: 日本語
- サイズカテゴリ: データ数1000件未満
- ライセンス: CC-BY-SA-4.0
データ内容
- 特徴:
- 100件の日本語データで構成され、複雑な指示・タスクを含む。
- 丁寧な出力が求められるAIアシスタント向け。
- 全てのデータに対して評価観点がアノテーションされている。
- 含まれるタスク例:
- 要約の修正と修正箇所の説明
- 具体的なエピソードから抽象的な教訓の述べ方
- ユーザーの意図を汲み取るAIアシスタントの振る舞い
- 場合分けを必要とする複雑な算数問題
- 未知の言語からパターン抽出と日本語訳への高度な推論
- 複数の指示に基づくYouTubeの対話生成
- 架空の生き物や熟語に関する生成・大喜利などの想像力
使用方法
- 利用: datasetsライブラリから以下のコードでデータセットを読み込むことができる。
py
from datasets import load_dataset ds = load_dataset("elyza/ELYZA-tasks-100") ds DatasetDict({ test: Dataset({ features: ["input", "output", "eval_aspect"], num_rows: 100 }) })
ベースライン評価
- 評価形式: 手動/自動, 絶対/相対評価のいずれでも可能。
- 評価手順:
- ベースラインモデルでの推論を行い、推論結果を格納。
- 推論結果を匿名化し、人手評価を行う。
- 評価結果を復号化し、最終的な評価結果を保存。
- 評価結果: 全ての入出力と評価が公開されており、モデルの傾向を分析可能。
ライセンス
- ライセンス情報: CC BY-SA 4.0
引用方法
tex @misc{elyzatasks100, title={ELYZA-tasks-100: 日本語instructionモデル評価データセット}, url={https://huggingface.co/elyza/ELYZA-tasks-100}, author={Akira Sasaki and Masato Hirakawa and Shintaro Horie and Tomoaki Nakamura}, year={2023}, }



