SuperCLUE
收藏arXiv2023-07-28 更新2024-06-21 收录
下载链接:
https://www.CLUEbenchmarks.com
下载链接
链接失效反馈官方服务:
资源简介:
SuperCLUE是由西湖大学开发的综合性中文大型语言模型基准,旨在评估和比较不同语言模型在实际应用中的表现。该数据集包含三个子任务:CArena、OPEN和CLOSE,分别对应实际用户查询、开放式问题和封闭式问题。通过收集和分析用户对模型的反馈,SuperCLUE能够准确反映模型在真实环境中的性能,特别强调开放式问题的评估,以更全面地理解模型的能力。
SuperCLUE is a comprehensive Chinese large language model benchmark developed by Westlake University, designed to evaluate and compare the performance of different language models in real-world applications. This benchmark includes three subtasks: CArena, OPEN and CLOSE, which correspond to real user queries, open-ended questions and closed-ended questions respectively. By collecting and analyzing user feedback on language models, SuperCLUE can accurately reflect the performance of models in real environments, with particular emphasis on the evaluation of open-ended questions to gain a more comprehensive understanding of the models' capabilities.
提供机构:
西湖大学
创建时间:
2023-07-28
搜集汇总
数据集介绍

构建方式
在中文大语言模型评估领域,SuperCLUE基准的构建体现了对真实用户交互场景的深度模拟。其核心由三个互补的子集构成:CArena子集通过匿名对战平台“琅琊榜”收集了约9900条真实用户查询与评分,采用Elo评级系统记录用户对两个匿名模型回复的偏好选择,并依据十类能力维度对查询进行人工标注。OPEN子集则基于CArena中用户关注的能力类别,精心设计了包含单轮与多轮对话的开放式问题,每类能力包含30个单轮问题,并通过人工设计后续问题构建对应的多轮对话,共计600题。CLOSE子集采用人机协同方式,将OPEN中的单轮问题通过GPT-3.5转化为四选一封闭式问题,并经过人工校验确保答案的唯一性与准确性,从而形成与开放集相对应的封闭评估集。
特点
SuperCLUE基准的显著特点在于其多维度的评估框架与对真实用户偏好的紧密关联。该基准创新性地融合了开放式生成、封闭式选择与真实对战平台数据,突破了传统基准仅依赖选择题的局限。其开放式问题集(OPEN)涵盖语义理解、生成创造、逻辑推理、代码生成等十类核心能力,并包含单轮与多轮对话场景,能更全面地评估模型的指令遵循与持续对话能力。封闭式问题集(CLOSE)与开放集共享题干,便于直接比较模型在不同应答格式下的表现差异。而CArena提供的真实用户评分数据,则为模型在实用场景中的表现提供了黄金标准。基准采用GPT-4作为开放式问题的自动评判员,并验证了其与人类评分的高度一致性,确保了评估的可靠性与可扩展性。
使用方法
使用SuperCLUE基准进行评估时,需遵循其设计的零样本评估设定,以贴合模型在实际应用中的无先验知识场景。对于CLOSE封闭式问题集,直接计算模型答案的分类准确率作为评估指标。对于OPEN开放式问题集,则采用基于大模型的自动评判方法:将待评估模型与参考模型(如ChatGPT)对同一问题的回复同时提交给GPT-4,由GPT-4进行两两比较,判断孰优孰劣或平局,最终以模型的平均胜率(包含平局)作为性能指标。对于CArena数据,可直接采用平台收集的用户自报告胜率。研究者可通过联合分析模型在三个子集上的表现,探究封闭式评估与开放式评估的相关性,以及它们与真实用户偏好的关联,从而更全面地理解模型的能力边界与实用效能。
背景与挑战
背景概述
在大型语言模型日益融入人类生活的背景下,准确评估其在真实场景中的性能成为关键。SuperCLUE基准由CLUE团队与西湖大学于2023年联合创建,旨在填补中文大模型评估领域的空白。该基准的核心研究问题聚焦于如何超越传统封闭式选择题的局限,通过整合用户实际查询、开放式对话与封闭式问题,全面衡量模型在真实交互中的表现及其与人类偏好的对齐程度。SuperCLUE的推出,为中文大模型的发展提供了多维度的评估框架,显著推动了该领域从单纯追求准确率向关注实际用户体验的范式转变。
当前挑战
SuperCLUE所解决的核心领域挑战在于如何精准评估大型语言模型在开放、动态的真实中文交互场景中的综合能力,而非仅局限于封闭式任务的静态准确率。其构建过程面临多重具体挑战:首先,需设计能够有效收集并量化真实用户偏见的评估平台与机制;其次,在构建开放式问题集时,需确保问题既能覆盖语义理解、逻辑推理、创作生成等十大核心能力维度,又能与用户实际查询在内容和形式上对齐;再者,将开放式问题转化为高质量封闭式问题时,需借助大模型生成并辅以严格的人工校验,以确保选项的合理性与答案的唯一性;最后,验证自动化评估方法(如使用GPT-4作为评判员)与人类评价的一致性,也是一项关键的技术挑战。
常用场景
经典使用场景
在中文大语言模型评估领域,SuperCLUE数据集被广泛用于全面衡量模型在开放交互场景下的综合性能。该数据集通过结合CArena平台的实际用户查询与评分、OPEN子集的开放式单轮与多轮对话问题,以及CLOSE子集的封闭式选择题,构建了一个多维度的评估框架。研究者通常利用SuperCLUE对模型进行零样本评估,以GPT-4作为自动评分法官,系统分析模型在语义理解、逻辑推理、知识问答等十类核心能力上的表现,从而揭示模型在真实中文语境下的优势与局限。
实际应用
SuperCLUE在工业界被广泛应用于中文大语言模型的性能优化与产品部署。企业通过CArena平台收集真实用户对匿名模型的对比评分,快速定位模型在对话流畅度、知识准确性、安全合规等方面的不足。例如,在智能客服、内容创作助手等落地场景中,开发者利用OPEN子集的多轮对话测试模型的情景保持能力,同时借助CLOSE子集验证模型的基础知识储备。这种评估机制显著提升了模型迭代效率,助力企业打造更符合中文用户交互习惯的AI产品。
衍生相关工作
SuperCLUE的发布催生了多项围绕中文大语言模型评估的创新研究。基于其构建的LangYa Leaderboard平台持续扩展为动态评估生态系统,衍生出针对垂直领域(如医疗、法律)的专项评测基准。后续工作如Xiezhi、AGIEval等综合评估框架借鉴了其开放式与封闭式结合的设计理念,进一步细化了学科分类与能力维度。同时,该数据集推动了对LLM-as-a-judge自动评估方法的深入研究,促进了GPT-4等先进模型在中文语境下替代人工评分的标准化进程。
以上内容由遇见数据集搜集并总结生成



