arXivBench
收藏arXiv2025-09-30 收录
下载链接:
https://huggingface.co/datasets/arXivBenchLLM/arXivBench
下载链接
链接失效反馈官方服务:
资源简介:
该数据集旨在评估大型语言模型在八个主要学科类别以及计算机科学五个子领域中的表现,包含了一系列要求提供相关研究论文的提示。此外,该数据集还包括了一个每月更新的Kaggle镜像版arXiv数据集,以便于交叉参考论文信息。规模上,它涵盖了八个主要学科类别的4,000个提示以及计算机科学五个子领域的2,500个提示。任务目标是评估大型语言模型基于提示生成相关研究论文及准确arXiv链接的能力。
提供机构:
arXivBenchLLM



