ScholarQABench

github2024-11-19 更新2024-11-28 收录

下载链接：

https://github.com/AkariAsai/ScholarQABench

下载链接

链接失效反馈

官方服务：

资源简介：

ScholarQABench是一个综合评估平台，用于测试大型语言模型在协助研究人员进行科学文献综合方面的能力。它包含多个领域的数据集，如计算机科学、生物医学和神经科学，并提供了详细的评估脚本和标注信息。

ScholarQABench is a comprehensive evaluation platform designed to test the capabilities of large language models (LLMs) in assisting researchers with scientific literature synthesis. It comprises datasets spanning multiple disciplines including computer science, biomedicine, and neuroscience, and provides detailed evaluation scripts and annotated information.

创建时间：

2024-11-19

原始信息汇总

ScholarQABench 数据集概述

数据集简介

ScholarQABench 是一个用于评估大型语言模型（LLMs）在协助研究人员进行科学文献综合能力的综合评估平台。该数据集源自 OpenScholar 项目。

数据集结构

data/: 包含相关数据文件
- scholar_cs/: 包含 ScholarQA-CS (计算机科学) 数据文件
  - output_snippets.jsonl: 包含问题及其系统响应的文件，无需进一步修改。
  - test_configs_snippets.json: 包含测试用例及其评分标准的文件，无需进一步修改。
  - qa_metadata_all.jsonl: 用于引导该工具的元数据文件，无需进一步修改。
  - src_answers/: 包含来自4个系统的示例系统响应的目录。
- scholar_multi/: 包含 ScholarQA-Multi (多领域; 计算机科学、生物学和物理学) 数据文件
- scholar_bio/: 包含 ScholarQA-Bio (生物医学) 数据文件
- scholar_neuro/: 包含 ScholarQA-Neuro (神经科学) 数据文件
scripts/: 包含每个评估方面的评估脚本
- rubric_eval.py: 用于运行 ScholarQA-CS 的基于评分标准的评估脚本。
- citation_correctness_eval.py: 用于运行单篇论文任务的引用和字符串匹配正确性评估的脚本。
- prometheus_eval.py: 用于评估组织、相关性和覆盖率的脚本。
rubrics/: 包含 prometheus_eval 的评分标准。

数据集详情

数据集	输入	输出	标签可用性	评估指标
`ScholarQA-SciFact`	声明	`true` 或 `false`	✅	`accuracy`, `citations_short`
`ScholarQA-PubmedQA`	问题	`yes` 或 `no`	✅	`accuracy`, `citations_short`
`ScholarQA-QASA`	问题	长格式	✅	`rouge-l`, `citations`
`ScholarQA-CS`	问题	长格式	✅ (评分标准)	`rubrics`, `citations`
`ScholarQA-Multi`	问题	长格式	✅	`prometheus`, `citations`
`ScholarQA-Bio`	问题	长格式		`citations`
`ScholarQA-Neuro`	问题	长格式		`citations`

评估方法

引用准确性 (所有任务)
- 短格式生成 (SciFact, PubMedQA)
  
  python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE --citations_short
- 长格式生成 (QASA, ScholarQA-*)
  
  python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE --citations_long
字符串匹配正确性 (SciFact, PubmedQA, QASA)
- SciFact 和 PubMedQA (准确性)
  
  python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE --match
- QASA (ROUGE-L)
  
  python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE
基于评分标准的正确性 (ScholarQA-CS)
- 转换输出文件
  
  python scripts/convert_answer_nora.py --pred_file YOUR_PRED_FILE_NAME --data_file data/scholar_cs/test_configs_snippets.json --output_file scholar_cs/src_answers/CONVERTED_OUTPUT_FILE_NAME
- 运行评估 python export OPENAI_API_KEY=<openai key> python scripts/rubric_eval.py --qa-dir data/scholar_cs/src_answers --test-config data/scholar_cs/test_configs_snippets.json --rubrics --snippets --src-names <optional comma separated src names prefixes of prediction files with .jsonl, if not given all the files will be picked>
Prometheus 评估 (ScholarQA-CS)
- 覆盖率和组织
  
  python scripts/prometheus_eval.py --batch_process_dir YOUR_PREDICTION_FILE_PATH --output_path OUTPUT_DIR_NAME --rubric_path rubrics/prometheus_rubrics_v8.json --instruction "Answer the question related to the most recent scientific literature." --model prometheus-eval/prometheus-7b-v2.0 --load_vllm --top_n 10 -f data/scholar_multi/human_answers.json --aspects organization coverage
- 相关性
  
  python scripts/prometheus_eval.py --batch_process_dir YOUR_PREDICTION_FILE_PATH --output_path OUTPUT_DIR_NAME --rubric_path rubrics/prometheus_rubrics_v8.json --instruction "Answer the question related to the most recent scientific literature." --model prometheus-eval/prometheus-bgb-8x7b-v2.0 --load_vllm --top_n 10 -f data/scholar_multi/human_answers.json --aspects relevance

许可证

数据集中的聚合测试用例、示例系统答案以及其他数据文件均采用 ODC-BY 许可证发布。

引用

@article{openscholar, title={{OpenScholar}: Synthesizing Scientific Literature with Retrieval-Augmented Language Models}, author={Asai, Akari and He*, Jacqueline and Shao*, Rulin and Shi, Weijia and Singh, Amanpreet and Chang, Joseph Chee and Lo, Kyle and Soldaini, Luca and Feldman, Tian, Sergey and Mike, D’arcy and Wadden, David and Latzke, Matt and Minyang and Ji, Pan and Liu, Shengyan and Tong, Hao and Wu, Bohao and Xiong, Yanyu and Zettlemoyer, Luke and Weld, Dan and Neubig, Graham and Downey, Doug and Yih, Wen-tau and Koh, Pang Wei and Hajishirzi, Hannaneh}, journal={Arxiv}, year={2024}, }

搜集汇总

数据集介绍

构建方式

ScholarQABench数据集的构建旨在为大型语言模型（LLMs）在辅助研究人员进行科学文献综合方面的能力提供一个全面的评估平台。该数据集源自OpenScholar项目，包含了多个领域的科学文献数据，如计算机科学、生物医学和神经科学等。数据集的构建过程包括收集和整理相关领域的科学文献，生成问题及其系统响应，并设计详细的评估标准和测试案例。每个问题都配备了特定的测试案例和评估标准，确保评估的全面性和准确性。

特点

ScholarQABench数据集的显著特点在于其多领域覆盖和详细的评估标准。数据集不仅涵盖了计算机科学、生物医学和神经科学等多个领域，还为每个领域的问题提供了专门的评估脚本和标准。此外，数据集还提供了多种评估指标，如准确性、引用准确性和ROUGE-L等，以全面评估模型的性能。数据集的设计旨在模拟真实的科学研究环境，从而更准确地评估模型在实际应用中的表现。

使用方法

使用ScholarQABench数据集时，首先需要按照提供的安装指南设置环境，并下载相关数据文件。用户可以通过运行不同的评估脚本来评估模型在不同任务上的表现，如引用准确性评估、字符串匹配评估和基于规则的评估等。每个评估脚本都详细说明了输入和输出的格式要求，确保用户能够准确地进行评估。此外，数据集还提供了转换脚本，帮助用户将模型输出转换为评估脚本所需的格式，从而简化评估过程。

背景与挑战

背景概述

ScholarQABench数据集由OpenScholar项目团队于2024年11月19日首次发布，旨在为大型语言模型（LLMs）提供一个综合评估平台，以测试其辅助研究人员进行科学文献综合的能力。该数据集的核心研究问题在于评估LLMs在处理科学文献时的准确性、相关性和组织性。ScholarQABench不仅涵盖了计算机科学领域，还扩展至生物医学、物理学和神经科学等多个领域，为跨学科研究提供了丰富的数据支持。该数据集的发布对推动科学文献处理技术的进步具有重要意义，尤其是在自动化文献综述和知识整合方面。

当前挑战

ScholarQABench数据集在构建过程中面临多项挑战。首先，跨学科数据的整合需要处理不同领域的专业术语和知识结构，这对数据的标准化和一致性提出了高要求。其次，评估LLMs在科学文献综合中的表现需要设计复杂的评估指标和方法，如引用准确性、字符串匹配正确性以及基于评分标准的正确性评估。此外，数据集的构建还需确保评估的公正性和客观性，避免模型偏见和数据偏差的影响。这些挑战不仅涉及技术层面的创新，还要求在方法论和伦理层面进行深入探讨。

常用场景

经典使用场景

ScholarQABench数据集在科学文献合成领域中扮演着至关重要的角色。其经典使用场景主要集中在评估大型语言模型（LLMs）在辅助研究人员进行科学文献综合方面的能力。通过提供多领域的问答数据，如计算机科学、生物医学和神经科学，该数据集能够全面测试模型在处理复杂科学问题时的表现。具体而言，研究人员可以利用ScholarQABench中的问答对和系统响应，进行模型性能的细致评估，包括回答的准确性、引用的正确性以及内容的组织和相关性。

解决学术问题

ScholarQABench数据集解决了科学文献合成中的多个关键学术研究问题。首先，它通过提供多领域的问答数据，帮助研究人员评估和改进大型语言模型在处理跨学科科学问题时的能力。其次，数据集中的引用正确性评估工具，解决了在科学文献中引用不准确或不恰当的问题，提高了文献合成的可信度。此外，通过提供详细的评估指标和脚本，ScholarQABench促进了科学文献合成领域的标准化和系统化研究，推动了该领域的发展。

衍生相关工作

ScholarQABench数据集的发布催生了多项相关研究工作。例如，基于该数据集的评估方法，研究人员开发了新的模型训练和优化策略，显著提升了大型语言模型在科学文献合成任务中的表现。此外，ScholarQABench还启发了对科学文献引用机制的深入研究，推动了引用正确性评估工具的发展。这些衍生工作不仅丰富了科学文献合成领域的研究内容，还为未来的研究提供了新的方向和方法。

以上内容由遇见数据集搜集并总结生成

5,000+

优质数据集

54 个

任务类型

进入经典数据集