five

SimpleQA-Bench

收藏
Hugging Face2024-12-17 更新2024-12-18 收录
下载链接:
https://huggingface.co/datasets/alibaba-pai/SimpleQA-Bench
下载链接
链接失效反馈
官方服务:
资源简介:
SimpleQA-Bench是一个结合了SimpleQA和Chinese-SimpleQA数据集的多选题(MCQ)格式数据集。原始数据集包含大量长尾和细分领域的知识,直接回答的准确率较低。为了提高事实性评估的可行性,使用GPT-4o生成三个看似合理但不正确的选项,将原始的问答数据转换为多选题格式。总共转换了7,324个样本。数据集的字段包括数据集名称、元数据、问题、答案、消息、选项和正确选项ID。

SimpleQA-Bench is a multiple-choice question (MCQ) format dataset that integrates the SimpleQA and Chinese-SimpleQA datasets. The original dataset contains a large volume of knowledge from long-tail and niche domains, with low direct answering accuracy. To enhance the feasibility of factual evaluation, GPT-4o was employed to generate three plausible but incorrect distractors, transforming the original question-answer pairs into MCQ format. A total of 7,324 samples were converted. The fields of this dataset include dataset name, metadata, question, answer, message, options, and correct option ID.
创建时间:
2024-12-06
原始信息汇总

SimpleQA-Bench

基本信息

  • 语言: 英语 (en)
  • 许可证: MIT
  • 标签: factuality, EN, ZH, short-form-answer, human-label
  • 版权: © 2024 alibaba-pai

数据来源

数据集描述

  • 数据格式: 多选题 (MCQ) 格式
  • 数据处理: 将 SimpleQA 和 Chinese-SimpleQA 数据集合并,并转换为多选题格式。通过 GPT-4o 生成 3 个合理的错误选项,将原始 QA 数据转换为 MCQ 格式。
  • 样本数量: 4,326 (SimpleQA) + 2,998 (Chinese-SimpleQA) = 7,324 样本

数据字段

字段 描述 SimpleQA 示例 Chinese-SimpleQA 示例
dataset (str) 数据集名称 openai/SimpleQA OpenStellarTeam/Chinese-SimpleQA
metadata (str) 数据元信息,包括主题、来源 URL 等 {"topic": "Science and technology", "answer_type": "Person", "urls": ["https://en.wikipedia.org/wiki/IEEE_Frank_Rosenblatt_Award", "https://ieeexplore.ieee.org/author/37271220500", "https://en.wikipedia.org/wiki/IEEE_Frank_Rosenblatt_Award", "https://www.nxtbook.com/nxtbooks/ieee/awards_2010/index.php?startid=21#/p/20"]} {"id": "6fd2645ad3994c89a01acae98cf04f90", "primary_category": "自然与自然科学", "secondary_category": "资讯科学", "urls": ["https://zh.wikipedia.org/wiki/%E8%92%99%E7%89%B9%E5%8D%A1%E6%B4%9B%E6%A0%91%E6%90%9C%E7%B4%A2"]}
question (str) 问题 Who received the IEEE Frank Rosenblatt Award in 2010? 蒙特卡洛树搜索最初由哪位研究人员在1987年的博士论文中探索,并首次提出了其关键特性?
answer (str) 人工验证的简短答案 Michio Sugeno 布鲁斯·艾布拉姆森(Bruce Abramson)
messages (List[Dict]) 用于回答 MCQ 的 openai 标准消息 [{"role": "system", "content": "You are a helpful assistant."}, {"role": "user", "content": "# Objective ... Answers: "}] 相同
options (List[str]) 所有选项,带 ID A/B/C/D ["Lotfi Zadeh", "Michio Sugeno", "John McCarthy", "Stephen Grossberg"] ["布鲁斯·艾布拉姆森(Bruce Abramson)", "勒努瓦·波维尔(Lennart Batsch-Fischer)", "克里斯·沃特森(Chris Watkins)", "马丁·汉森(Martin Hansen)"]
answer_option (str) 正确选项 ID:A/B/C/D B A

提示词

  • GEN_WA_RROMPT: 用于生成多选题的提示词,要求生成三个合理的错误答案。
  • ANSWER_MCQ_PROMPT: 用于回答多选题的提示词,要求直接选择正确选项。

性能比较

LLM SimpleQA (4326) SimpleQA-MCQ Chinese-SimpleQA (2998) Chinese-SimpleQA-MCQ
gpt-4o-mini-2024-07-18 9.5 41.2 (1781/4326) 37.6 52.9 (1586/2997)
qwen-max / 52.5 (2256/4300) 54.1 72.7 (2177/2996)
搜集汇总
数据集介绍
main_image_url
构建方式
SimpleQA-Bench数据集的构建基于两个原始数据集:OpenAI的SimpleQA和OpenStellarTeam的中文SimpleQA。这两个数据集包含了大量长尾和专业知识领域的问题与答案。为了提高语言模型在事实性评估中的表现,研究团队将这两个数据集整合,并通过GPT-4o生成三个看似合理但错误的候选答案,将原始的问答数据转换为多选题(MCQ)格式。最终,数据集包含了7,324个样本,每个样本包含一个问题、一个正确答案和三个错误选项。
特点
SimpleQA-Bench数据集的主要特点在于其多选题格式,这种格式不仅简化了事实性评估的复杂性,还增强了模型区分正确与错误答案的能力。数据集涵盖了广泛的知识领域,包括科学、技术、自然科学等,且每个问题都附有详细的元数据,如主题和来源URL,便于进一步分析和验证。此外,数据集的构建过程中使用了GPT-4o生成的错误选项,确保了选项的合理性和多样性。
使用方法
SimpleQA-Bench数据集适用于评估语言模型在事实性任务中的表现,尤其是在多选题格式下的准确性。用户可以通过提供的提示模板(如GEN_WA_RROMPT和ANSWER_MCQ_PROMPT)来生成和回答多选题。数据集的结构清晰,包含问题、正确答案、错误选项以及相关的元数据,便于模型训练和评估。此外,数据集还提供了性能比较的基准,帮助用户了解不同语言模型在该数据集上的表现。
背景与挑战
背景概述
SimpleQA-Bench数据集由阿里巴巴PAI团队于2024年创建,旨在解决大规模语言模型在事实性问题上的准确性评估难题。该数据集结合了OpenAI的SimpleQA和OpenStellarTeam的中文SimpleQA数据,经过处理转化为多选题(MCQ)格式,以提高事实性评估的可操作性。其核心研究问题聚焦于如何有效评估语言模型在短小、事实性查询中的表现,尤其是在区分候选答案正确性方面的能力。该数据集的推出对自然语言处理领域具有重要意义,为事实性评估提供了新的基准。
当前挑战
SimpleQA-Bench数据集在构建过程中面临多项挑战。首先,原始数据涉及大量长尾和冷门知识,导致直接问答的准确率较低。其次,将问答数据转化为多选题格式需要生成三个看似合理但错误的选项,这对生成模型的语义理解和创造力提出了高要求。此外,评估语言模型在多选题中的表现时,还需考虑模型对候选答案正确性的辨别能力,而非仅提供正确答案。这些挑战使得SimpleQA-Bench在事实性评估领域具有独特的研究价值。
常用场景
经典使用场景
SimpleQA-Bench数据集的经典使用场景主要集中在自然语言处理领域,特别是针对事实性问答任务的评估。该数据集通过将原始的问答数据转换为多选题(MCQ)格式,使得评估语言模型在处理短小、事实性查询时的准确性和事实性变得更加可行。这种格式不仅简化了评估过程,还提高了模型在区分正确与错误答案时的能力,从而为研究人员提供了一个更为精确的基准。
实际应用
在实际应用中,SimpleQA-Bench数据集可广泛用于构建和评估智能问答系统,特别是在需要高事实性保证的场景中,如教育、医疗和法律咨询等领域。通过该数据集的训练和评估,开发者可以构建出更为准确和可靠的问答模型,从而提升用户体验和服务质量。此外,该数据集还可用于语言模型的持续改进和优化,确保其在处理复杂查询时的稳定性和准确性。
衍生相关工作
SimpleQA-Bench数据集的推出激发了大量相关研究工作,特别是在事实性问答和多选题生成领域。研究者们基于该数据集开发了多种改进模型,旨在提高语言模型在处理事实性查询时的准确性和鲁棒性。此外,该数据集还促进了跨语言问答系统的研究,特别是在中英文问答系统的对比和优化方面,推动了多语言问答技术的发展。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作