Debate Performance Dataset
收藏arXiv2025-09-30 收录
下载链接:
https://huggingface.co/spaces/lmsys/chatbot-Arena-leaderboard
下载链接
链接失效反馈官方服务:
资源简介:
该数据集包含了不同大型语言模型(LLM)在一系列开放式话题上的辩论结果。它不仅提供了辩论的详细结果,还根据不同模型对之间的辩论胜场数给出了排名。该数据集的规模为:在25个话题上,模型对之间进行了50场辩论。这一任务旨在通过辩论来评估LLM的表现。
提供机构:
OpenAI, Together.ai



