llm-book/aio-retriever
收藏Hugging Face2023-10-25 更新2024-03-04 收录
下载链接:
https://hf-mirror.com/datasets/llm-book/aio-retriever
下载链接
链接失效反馈官方服务:
资源简介:
---
language:
- ja
size_categories:
- 10K<n<100K
dataset_info:
features:
- name: qid
dtype: string
- name: competition
dtype: string
- name: timestamp
dtype: string
- name: section
dtype: string
- name: number
dtype: string
- name: original_question
dtype: string
- name: original_answer
dtype: string
- name: original_additional_info
dtype: string
- name: question
dtype: string
- name: answers
list: string
- name: passages
list:
- name: passage_id
dtype: int32
- name: title
dtype: string
- name: text
dtype: string
- name: positive_passage_indices
list: int32
- name: negative_passage_indices
list: int32
splits:
- name: train
num_bytes: 1742881639
num_examples: 22335
- name: validation
num_bytes: 78671502
num_examples: 1000
download_size: 665253451
dataset_size: 1821553141
---
# Dataset Card for llm-book/aio-retriever
書籍『大規模言語モデル入門』で使用する、「AI王」コンペティションのQAデータセット(文書検索モデル訓練用)です。
GitHub リポジトリ [cl-tohoku/quiz-datasets](https://github.com/cl-tohoku/quiz-datasets) で公開されているデータセットを利用しています。
## Licence
本データセットに含まれる一部のクイズ問題の著作権は [abc/EQIDEN 実行委員会](https://abc-dive.com/portal/)に帰属するものであり、これらのクイズ問題は本書における使用許諾を得ているものです。
本データセットに含まれる一部のクイズ問題は[株式会社キュービック](http://www.qbik.co.jp/)および[株式会社カプリティオ](https://capriccio.tokyo/)に依頼し作成したものであり、これらのクイズ問題は[クリエイティブ・コモンズ表示・継承ライセンス 4.0 (CC BY-SA 4.0)](https://creativecommons.org/licenses/by-sa/4.0/deed.ja) ライセンスの下に提供されています。
本データセットにパッセージとして付与されている Wikipedia のコンテンツは、[クリエイティブ・コモンズ表示・継承ライセンス 3.0 (CC BY-SA 3.0)](https://creativecommons.org/licenses/by-sa/3.0/deed.ja) および [GNU 自由文書ライセンス (GFDL)](https://www.gnu.org/licenses/fdl.html) の下に配布されているものです。
クイズ問題のライセンスについて、詳細は [cl-tohoku/quiz-datasets](https://github.com/cl-tohoku/quiz-datasets) を参照してください。
提供机构:
llm-book
原始信息汇总
数据集概述
基本信息
- 语言: 日语
- 大小: 10K<n<100K
数据集特征
- qid: 字符串
- competition: 字符串
- timestamp: 字符串
- section: 字符串
- number: 字符串
- original_question: 字符串
- original_answer: 字符串
- original_additional_info: 字符串
- question: 字符串
- answers: 字符串列表
- passages:
- passage_id: 整数32位
- title: 字符串
- text: 字符串
- positive_passage_indices: 整数32位列表
- negative_passage_indices: 整数32位列表
数据集划分
- 训练集:
- 大小: 1742881639 字节
- 样本数: 22335
- 验证集:
- 大小: 78671502 字节
- 样本数: 1000
下载与数据集大小
- 下载大小: 665253451 字节
- 数据集大小: 1821553141 字节



