five

bermaneh/pde-mc-logprob-results-v3

收藏
Hugging Face2026-04-27 更新2026-05-03 收录
下载链接:
https://hf-mirror.com/datasets/bermaneh/pde-mc-logprob-results-v3
下载链接
链接失效反馈
官方服务:
资源简介:
该数据集用于多选(MC)对数概率评估,包含10个模型的评估结果,基于v3数据集(128行,8种条件)。数据集包括8个对数概率模型以及QwQ和DeepSeek文本提取模型的结果。数据集共有12816行和19列,涵盖了标题、PDE类别、模型类型、问题类型、候选答案、字母选项、正确答案字母、各选项的对数概率、预测字母、是否正确、正确对数概率、边际值、熵、完成原因和评分方法等信息。

MC logprob eval: 10 models, v3 dataset (128 rows, 8 conditions). 8 logprob models + QwQ text-extraction + DeepSeek text-extraction. Final artifact.
提供机构:
bermaneh
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作