PhD
收藏arXiv2025-09-30 收录
下载链接:
https://github.com/jiazhen-code/phd
下载链接
链接失效反馈官方服务:
资源简介:
该数据集被用于评估多个模型在五个子任务上的表现。此外,结果还包括了模型在客观提问和误导性提问模式下的评估情况。该数据集的任务是评估模型在不同提问模式下的性能表现。
This dataset is employed to evaluate the performance of multiple models across five subtasks. In addition, the evaluation results include assessments of models under both objective and misleading questioning modes. The core task of this dataset is to assess model performance across various questioning modes.
搜集汇总
背景与挑战
背景概述
PhD数据集是一个用于评估模型性能的基准数据集,重点关注五个子任务,并特别设计用于测试模型在客观提问和误导性提问两种模式下的表现。其核心目的是评估模型在不同提问模式下的鲁棒性和准确性,适用于模型比较和性能分析。
以上内容由遇见数据集搜集并总结生成



