Mistral_Trivia-QA_Dataset
收藏Mistral Trivia QA 数据集概述
数据集简介
Mistral Trivia QA 数据集是一个用于评估和训练问答模型的琐事问答集合,涵盖广泛主题,特别适用于评估模型处理通用知识和推理任务的能力。数据来源于 WikiText-2,提供适合抽取式问答生成的多样化、结构良好的文本内容。模型输出使用 Mistral-7B-Instruct-v0.3 和 open-mistral-7b 生成。
数据集结构
每个数据条目为包含以下字段的 JSON 对象:
| 字段 | 类型 | 描述 |
|---|---|---|
| id | 字符串 | 每个问答对的唯一标识符 |
| question | 字符串 | 琐事问题文本 |
| answer | 字符串 | 模型生成的答案 |
| ground_truths | 字符串列表 | 正确答案列表(真实标签) |
| contexts | 字符串列表 | 可能找到答案的上下文句子列表 |
| doc_id | 字符串 | 源文档标识符 |
| title | 字符串 | 源文档标题 |
| evidence_sent_ids | 整数列表 | 包含答案证据的上下文句子索引 |
| meta | 字典 | 元数据字典,包含:<br>• source:数据来源<br>• model:用于生成输出的模型<br>• ctx_window:使用的上下文窗口<br>• split:数据集划分 |
数据集规模
| 划分 | 文档数 | 问答对数 | 用途 |
|---|---|---|---|
| 训练集 | 5,135 | 15,405 | 用于强化学习策略训练和评估 |
| 验证集 | 502 | 1,506 | 用于超参数调优 |
| 验证集 | 569 | 1,707 | 用于最终性能基准测试 |
说明:
- 每个文档最多产生三个非冗余问答对
- 问答对为抽取式:答案是上下文的子字符串
- 数据集划分为 train、val 和 test 目录,每个包含:
- docs.jsonl – 原始琐事文档
- qa_dedup.jsonl – 每个文档生成的问答对
适用用途
- 训练问答模型(抽取式或生成式)
- 基准测试琐事风格问答任务
- 基于知识的推理研究
数据来源
由台湾长庚大学计算机科学与信息工程系网络信息与数据工程实验室(WIDELab)收集和整理。
许可信息
采用 CC BY-SA 4.0 许可发布,遵守 Mistral AI 和 Hugging Face 模型条款。
引用信息
bibtex @misc{widelab-mistral-trivia-qa-2025, title={Mistral Trivia QA Dataset}, author={WIDELab – Web Information & Data Engineering Laboratory, Chang Gung University}, year={2025}, howpublished={url{https://huggingface.co/datasets/CGU-Widelab/Mistral_Trivia-QA_Dataset}}, note={Accessed: 2025-10-25} }
@inproceedings{chaithra2025optimizingrag, title={Optimizing Retrieval in RAG Systems with Reinforcement Learning: A Trade-off Between Quality and Cost}, author={Mahadevaswamy, Chaithra Lokasara and Nguyen, Khoa and Singh, Mayank and Chang, Hsien-Tsung}, booktitle={Proceedings of the 9th International Conference on Natural Language Processing and Information Retrieval (NLPIR 2025)}, year={2025}, address={Fukuoka, Japan} }




