five

PPE-MATH-Best-of-K

收藏
魔搭社区2025-12-05 更新2025-04-26 收录
下载链接:
https://modelscope.cn/datasets/lmarena-ai/PPE-MATH-Best-of-K
下载链接
链接失效反馈
官方服务:
资源简介:
# Overview This contains the MATH correctness preference evaluation set for Preference Proxy Evaluations. The prompts are sampled from [MATH](https://huggingface.co/datasets/hendrycks/competition_math). This dataset is meant for benchmarking and evaluation, not for training. [Paper](https://arxiv.org/abs/2410.14872) [Code](https://github.com/lmarena/PPE) # License User prompts are licensed under MIT, and model outputs are governed by the terms of use set by the respective model providers. # Citation ``` @misc{frick2024evaluaterewardmodelsrlhf, title={How to Evaluate Reward Models for RLHF}, author={Evan Frick and Tianle Li and Connor Chen and Wei-Lin Chiang and Anastasios N. Angelopoulos and Jiantao Jiao and Banghua Zhu and Joseph E. Gonzalez and Ion Stoica}, year={2024}, eprint={2410.14872}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.14872}, } ```

# 数据集概览 本数据集收录了面向偏好代理评估(Preference Proxy Evaluations)的MATH竞赛数学正确性偏好评估集。 其提示语均采样自MATH竞赛数学数据集(https://huggingface.co/datasets/hendrycks/competition_math)。 本数据集仅用于基准测试与模型评估,不得用于模型训练。 论文链接:https://arxiv.org/abs/2410.14872 代码链接:https://github.com/lmarena/PPE # 授权协议 用户提示语采用MIT协议授权,模型输出需遵循对应模型服务商的使用条款。 # 引用文献 @misc{frick2024evaluaterewardmodelsrlhf, title={如何评估面向强化学习从人类反馈(Reinforcement Learning from Human Feedback, RLHF)的奖励模型}, author={埃文·弗里克、李天乐、康纳·陈、魏林·江、阿纳斯塔西奥斯·N·安杰洛普洛斯、焦建涛、朱邦华、约瑟夫·E·冈萨雷斯、伊恩·斯托伊卡}, year={2024}, eprint={2410.14872}, archivePrefix={arXiv}, primaryClass={cs.LG}, url={https://arxiv.org/abs/2410.14872}, }
提供机构:
maas
创建时间:
2025-04-21
搜集汇总
数据集介绍
main_image_url
背景与挑战
背景概述
该数据集是MATH正确性偏好评估集,用于偏好代理评估的基准测试和评估。其提示词源自MATH数据集,且仅适用于评估目的,不应用于训练。
以上内容由遇见数据集搜集并总结生成
5,000+
优质数据集
54 个
任务类型
进入经典数据集
二维码
社区交流群

面向社区/商业的数据集话题

二维码
科研交流群

面向高校/科研机构的开源数据集话题

数据驱动未来

携手共赢发展

商业合作