PlausibleQA
收藏github2025-02-26 更新2025-02-26 收录
下载链接:
https://github.com/DataScienceUIBK/PlausibleQA
下载链接
链接失效反馈官方服务:
资源简介:
PlausibleQA是一个用于评估和增强大型语言模型区分正确答案和高可信度错误答案能力的大型问答数据集。与传统主要关注正确性的问答数据集不同,PlausibleQA提供了带有可信度评分和解释的候选答案。
PlausibleQA is a large-scale question answering dataset developed to evaluate and enhance the ability of large language models (LLMs) to distinguish between correct answers and highly plausible incorrect answers. Unlike traditional question answering datasets that primarily prioritize answer correctness, PlausibleQA provides candidate answers accompanied by credibility scores and explanatory justifications.
创建时间:
2025-02-03
原始信息汇总
PlausibleQA 数据集概述
📌 数据集基本信息
- 名称: PlausibleQA
- 类型: 问答数据集(QA Dataset)
- 规模:
- 10,000 个问题(来源:TriviaQA、Natural Questions、WebQuestions)
- 100,000 个候选答案(每个问题10个候选答案)
- 1,000,000 条合理性解释
- 标注内容:
- 每个答案的合理性评分(0-100)
- 合理性排名(通过成对比较生成)
- 问题和答案难度估计
🌟 数据集特点
- 合理性评分: 首个为错误答案标注明确合理性评分的大规模QA数据集
- 答案多样性: 包含正确和高度合理但错误的答案
- 结构化评估: 支持对模型区分正确答案和合理错误答案的能力进行系统评估
🔑 研究价值
-
多项选择题生成:
- 支持基于难度的自适应干扰项选择
- 生成更真实和具有挑战性的多项选择选项
-
QA模型鲁棒性评估:
- 评估语言模型拒绝误导性但合理答案的能力
- 可用于对抗性QA评估
-
模型微调:
- 帮助模型更好地区分正确和合理的错误答案
- 减少生成式AI中的幻觉问题
-
对比学习:
- 利用合理性评分进行更好的负样本选择
📥 数据获取
- 下载地址: HuggingFace数据集页面
- 下载命令: bash wget "https://huggingface.co/datasets/JamshidJDMY/PlausibleQA/resolve/main/test.json?download=true"
📜 使用许可
- 许可证: Creative Commons Attribution 4.0 International License (CC BY 4.0)
📑 引用信息
纯文本格式
Mozafari, J., Abdallah, A., Piryani, B., & Jatowt, A. (2025). Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores. arXiv [Cs.CL]. doi:10.48550/arXiv.2502.16358
Bibtex格式
bibtex @article{mozafari2025wronganswersusefulplausibleqa, title={Wrong Answers Can Also Be Useful: PlausibleQA -- A Large-Scale QA Dataset with Answer Plausibility Scores}, author={Jamshid Mozafari and Abdelrahman Abdallah and Bhawna Piryani and Adam Jatowt}, year={2025}, eprint={2502.16358}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2502.16358}, doi={10.48550/arXiv.2502.16358} }
搜集汇总
数据集介绍

构建方式
PlausibleQA数据集的构建采取了对TriviaQA、Natural Questions (NQ)、WebQuestions (WebQ)三个数据集中的问题进行整合,利用LLaMA-3.3-70B模型为每个问题生成10个候选答案。随后,通过列表式排名和成对答案比较的方法为每个答案标注了0至100的可靠性分数,并通过人类评估确保了这些分数的有效性。
使用方法
使用PlausibleQA数据集时,研究者可以通过wget命令从HuggingFace下载.json文件。该数据集可用于提高多项选择题模型的性能,增强问答系统的稳健性评估,微调LLM以更好地区分正确与可靠的答案,以及为对比学习任务提供负样本选择。
背景与挑战
背景概述
PlausibleQA 数据集,创建于2024年,由Jamshid JDMY等人研发,旨在评估和提升大型语言模型(LLMs)区分正确答案与高度可信的错误答案的能力。该数据集不同于传统的问答数据集,它提供了带有可信度评分和解释的候选答案。PlausibleQA包含了从TriviaQA、Natural Questions(NQ)和WebQuestions(WebQ)中筛选出的10,000个问题,100,000个候选答案及其可信度评分,以及1,000,000个解释说明。该数据集的创建,为多选问答模型和问答稳健性评估提供了新的基准,对相关领域的研究具有重要的推动作用。
当前挑战
PlausibleQA 数据集在构建过程中遇到的挑战主要包括:如何准确地为错误答案分配可信度评分,以及如何确保模型在处理具有误导性但看似可信的答案时具有稳健性。此外,数据集的构建还需解决如何高效地生成具有不同难度级别的干扰项,以及如何通过人类评估验证可信度评分的有效性和可靠性等问题。
常用场景
经典使用场景
在知识问答系统的研究领域,PlausibleQA数据集的经典使用场景主要在于评估和提升大型语言模型在区分正确答案与高度可信的错误答案方面的能力。该数据集通过提供带有可信度评分和解释的候选答案,为研究者和工程师提供了一种新的测试手段,以验证模型在面对具有迷惑性的错误答案时的鲁棒性。
解决学术问题
PlausibleQA数据集解决了传统问答数据集主要关注答案正确性的问题,它通过引入错误答案的可信度评分,使得研究者能够更细致地评估模型在多选问答中的表现,特别是在处理高度可信的错误选项时的能力。这对于提高模型的鲁棒性和减少误导性答案的影响具有重要的学术研究价值。
实际应用
在实际应用中,PlausibleQA数据集可用于改进多选问答系统的设计,通过该数据集,开发者可以训练模型以生成更加真实和具有挑战性的多选选项,并依据难度进行自适应的干扰项选择。此外,它还可用于教育工具中的智能辅导,通过可信度评分的熵来估计问题难度,为学习者提供适当的提示和指导。
数据集最近研究
最新研究方向
PlausibleQA数据集作为首个大规模带有错误答案可信度评分的问答数据集,其研究方向主要集中在提升大型语言模型在区分正确答案与高度可信的错误答案的能力。该数据集通过提供带有可信度评分的候选答案及解释其可信度排名的佐证,为多项研究贡献了新的视角。研究者们正利用PlausibleQA进行多项探索,包括但不限于:多项选择题问答中的可信度感知干扰项生成、评估LLM模型对于可信干扰项的鲁棒性、以及通过对比学习提升模型对正确与可信错误答案的区分能力。这些研究不仅有助于改进多项选择题问答模型,还推动了问答系统鲁棒性评估的发展,并为教育工具中的智能辅导提供了新的可能性。
以上内容由遇见数据集搜集并总结生成



