ScholarQABench
收藏ScholarQABench 数据集概述
数据集简介
ScholarQABench 是一个用于评估大型语言模型(LLMs)在协助研究人员进行科学文献综合能力的综合评估平台。该数据集源自 OpenScholar 项目。
数据集结构
- data/: 包含相关数据文件
- scholar_cs/: 包含 ScholarQA-CS (计算机科学) 数据文件
output_snippets.jsonl: 包含问题及其系统响应的文件,无需进一步修改。test_configs_snippets.json: 包含测试用例及其评分标准的文件,无需进一步修改。qa_metadata_all.jsonl: 用于引导该工具的元数据文件,无需进一步修改。src_answers/: 包含来自4个系统的示例系统响应的目录。
- scholar_multi/: 包含 ScholarQA-Multi (多领域; 计算机科学、生物学和物理学) 数据文件
- scholar_bio/: 包含 ScholarQA-Bio (生物医学) 数据文件
- scholar_neuro/: 包含 ScholarQA-Neuro (神经科学) 数据文件
- scholar_cs/: 包含 ScholarQA-CS (计算机科学) 数据文件
- scripts/: 包含每个评估方面的评估脚本
rubric_eval.py: 用于运行 ScholarQA-CS 的基于评分标准的评估脚本。citation_correctness_eval.py: 用于运行单篇论文任务的引用和字符串匹配正确性评估的脚本。prometheus_eval.py: 用于评估组织、相关性和覆盖率的脚本。
- rubrics/: 包含
prometheus_eval的评分标准。
数据集详情
| 数据集 | 输入 | 输出 | 标签可用性 | 评估指标 |
|---|---|---|---|---|
ScholarQA-SciFact |
声明 | true 或 false |
✅ | accuracy, citations_short |
ScholarQA-PubmedQA |
问题 | yes 或 no |
✅ | accuracy, citations_short |
ScholarQA-QASA |
问题 | 长格式 | ✅ | rouge-l, citations |
ScholarQA-CS |
问题 | 长格式 | ✅ (评分标准) | rubrics, citations |
ScholarQA-Multi |
问题 | 长格式 | ✅ | prometheus, citations |
ScholarQA-Bio |
问题 | 长格式 | citations |
|
ScholarQA-Neuro |
问题 | 长格式 | citations |
评估方法
-
引用准确性 (所有任务)
-
短格式生成 (SciFact, PubMedQA)
python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE --citations_short
-
长格式生成 (QASA, ScholarQA-*)
python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE --citations_long
-
-
字符串匹配正确性 (SciFact, PubmedQA, QASA)
-
SciFact 和 PubMedQA (准确性)
python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE --match
-
QASA (ROUGE-L)
python citation_correctness_eval.py --f PATH_TO_YOUR_PREDICTION_FILE
-
-
基于评分标准的正确性 (ScholarQA-CS)
-
转换输出文件
python scripts/convert_answer_nora.py --pred_file YOUR_PRED_FILE_NAME --data_file data/scholar_cs/test_configs_snippets.json --output_file scholar_cs/src_answers/CONVERTED_OUTPUT_FILE_NAME
-
运行评估 python export OPENAI_API_KEY=<openai key> python scripts/rubric_eval.py --qa-dir data/scholar_cs/src_answers --test-config data/scholar_cs/test_configs_snippets.json --rubrics --snippets --src-names <optional comma separated src names prefixes of prediction files with .jsonl, if not given all the files will be picked>
-
-
Prometheus 评估 (ScholarQA-CS)
-
覆盖率和组织
python scripts/prometheus_eval.py --batch_process_dir YOUR_PREDICTION_FILE_PATH --output_path OUTPUT_DIR_NAME --rubric_path rubrics/prometheus_rubrics_v8.json --instruction "Answer the question related to the most recent scientific literature." --model prometheus-eval/prometheus-7b-v2.0 --load_vllm --top_n 10 -f data/scholar_multi/human_answers.json --aspects organization coverage
-
相关性
python scripts/prometheus_eval.py --batch_process_dir YOUR_PREDICTION_FILE_PATH --output_path OUTPUT_DIR_NAME --rubric_path rubrics/prometheus_rubrics_v8.json --instruction "Answer the question related to the most recent scientific literature." --model prometheus-eval/prometheus-bgb-8x7b-v2.0 --load_vllm --top_n 10 -f data/scholar_multi/human_answers.json --aspects relevance
-
许可证
数据集中的聚合测试用例、示例系统答案以及其他数据文件均采用 ODC-BY 许可证发布。
引用
@article{openscholar, title={{OpenScholar}: Synthesizing Scientific Literature with Retrieval-Augmented Language Models}, author={Asai, Akari and He*, Jacqueline and Shao*, Rulin and Shi, Weijia and Singh, Amanpreet and Chang, Joseph Chee and Lo, Kyle and Soldaini, Luca and Feldman, Tian, Sergey and Mike, D’arcy and Wadden, David and Latzke, Matt and Minyang and Ji, Pan and Liu, Shengyan and Tong, Hao and Wu, Bohao and Xiong, Yanyu and Zettlemoyer, Luke and Weld, Dan and Neubig, Graham and Downey, Doug and Yih, Wen-tau and Koh, Pang Wei and Hajishirzi, Hannaneh}, journal={Arxiv}, year={2024}, }




