five

elyza/ELYZA-tasks-100

收藏
Hugging Face2023-12-27 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/elyza/ELYZA-tasks-100
下载链接
链接失效反馈
官方服务:
资源简介:
本数据集是用于评估经过instruction-tuning的模型的日语数据集,包含100个复杂的任务。这些任务涵盖了从摘要修正到复杂数学问题解决等多种类型,每个任务都有详细的评估标准,以确保评估的一致性和准确性。数据集旨在评估模型作为有用的AI助手的能力,要求模型能够生成礼貌且有用的输出。

本数据集是用于评估经过instruction-tuning的模型的日语数据集,包含100个复杂的任务。这些任务涵盖了从摘要修正到复杂数学问题解决等多种类型,每个任务都有详细的评估标准,以确保评估的一致性和准确性。数据集旨在评估模型作为有用的AI助手的能力,要求模型能够生成礼貌且有用的输出。
提供机构:
elyza
原始信息汇总

ELYZA-tasks-100: 日本語instructionモデル評価データセット

データセット概要

基本情報

  • タスクカテゴリ: text2text-generation
  • 言語: 日本語
  • サイズカテゴリ: データ数1000件未満
  • ライセンス: CC-BY-SA-4.0

データ内容

  • 特徴:
    • 100件の日本語データで構成され、複雑な指示・タスクを含む。
    • 丁寧な出力が求められるAIアシスタント向け。
    • 全てのデータに対して評価観点がアノテーションされている。
  • 含まれるタスク例:
    • 要約の修正と修正箇所の説明
    • 具体的なエピソードから抽象的な教訓の述べ方
    • ユーザーの意図を汲み取るAIアシスタントの振る舞い
    • 場合分けを必要とする複雑な算数問題
    • 未知の言語からパターン抽出と日本語訳への高度な推論
    • 複数の指示に基づくYouTubeの対話生成
    • 架空の生き物や熟語に関する生成・大喜利などの想像力

使用方法

  • 利用: datasetsライブラリから以下のコードでデータセットを読み込むことができる。 py

    from datasets import load_dataset ds = load_dataset("elyza/ELYZA-tasks-100") ds DatasetDict({ test: Dataset({ features: ["input", "output", "eval_aspect"], num_rows: 100 }) })

ベースライン評価

  • 評価形式: 手動/自動, 絶対/相対評価のいずれでも可能。
  • 評価手順:
    1. ベースラインモデルでの推論を行い、推論結果を格納。
    2. 推論結果を匿名化し、人手評価を行う。
    3. 評価結果を復号化し、最終的な評価結果を保存。
  • 評価結果: 全ての入出力と評価が公開されており、モデルの傾向を分析可能。

ライセンス

  • ライセンス情報: CC BY-SA 4.0

引用方法

tex @misc{elyzatasks100, title={ELYZA-tasks-100: 日本語instructionモデル評価データセット}, url={https://huggingface.co/elyza/ELYZA-tasks-100}, author={Akira Sasaki and Masato Hirakawa and Shintaro Horie and Tomoaki Nakamura}, year={2023}, }

5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作